分类 - 大数据分析

2020-03-14 22:53:12    18    0    0

    Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD。Pair RDD 是很多程序的构成要素,因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。

 

一. 创建Pair RDD

    在 Spark 中有很多种创建 pair RDD 的方式。很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的 pair

2020-03-13 18:54:40    14    0    0

RDD基础

    Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象,甚至可以包含用户自定义的对象。用户可以使用两种方法创建 RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如 list 和 set)。

val line
2020-03-13 13:45:41    8    0    0

基本示例

在 Spark 中,通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行计算。这样的数据集被称为弹性分布式数据集(resilient distributed dataset),简称 RDD。RDD 是 Spark 对分布式数据和计算的基本抽象。

tar -zxf spark-2.4.5-bin-hadoop2.6.tgz
cd spark-2.4.5-bin
2020-02-21 22:19:18    15    0    0

Spark是什么

Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比 MapReduce 更加高效。


Spark 所提供的接口非常丰富。除

2020-01-15 22:35:17    26    0    0

一. 概要

  在 Hadoop 1.0 时代,NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 MapReduce、Hive、Pig 以及 HBase 等也都无法正常工作,并且重新启动 NameNode 和进行数据恢复的过程也会比较耗时。这些问题在给 Hadoop 的使用者带来了极大的困扰。所幸的是,在 Hadoop2.0 中,HDFS NameNode 和 YARN ResourceManger 的单点问题都得到了解决。下面是整体架构图。

2020-01-15 18:18:47    21    0    0

入门hadoop相对于其他技术来说要稍微难一点,因为它的复杂性决定了它的学习曲线,不过在类似CHD这样的工具出现以后给hadoop的维护管理带来了方便,下面是针对初学者来说的一个简单组件描述。

一、NameNode

  • NameNode维护着文件系统树及整棵树内的所有文件和目录,它保存了整个集群文件系统的元数据信息,元数据信息存在于内存中,会不间断地往磁盘上镜像成文件,叫做fsimageNameNode负责文件元数据信息的操作,这些操作日志会存下来,叫做edits日志。NameNode也记录着每个文件中各个块所在的数据节点信息,但是它并不会永久保存块的位置信息,因为这些信息会在启动时,根据DataNode数据节点上报而重建。

  • 元数据
    元数据包括文件名,目录结构,文件创建时间,文件副本数,文件权限,每个文件的block列表等。

  • fsimage文件
    元数据的镜像文件。为了保证fsimage文件的高可用,一般的做法是将dfs.namenode.name.dir设置成逗号分隔的多个目录,且多个目录至少不要在一块磁盘上。

2019-10-25 10:02:42    37    0    0

一、单机单broker快速上手

  1. $ 解压并进入目录
  2. tar -xzf kafka_2.11-2.3.0.tgz
  3. mv kafka_2.11-2.3.0 /opt/kafka
  4. cd /opt/kafka
  5. $ 启动zookeeper
  6. nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &
  7. $ 启动kafka
  8. nohup ./bin/kafka-server-start.sh config/server.properties &

2019-10-24 19:42:17    81    0    0

一、概要说明

  • HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。
  • HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在
2019-10-21 17:47:40    73    0    0

一、5.7版本仓库配置

  1. # cat /etc/yum.repos.d/mysql.repo
  2. [mysql57-community]
  3. name=MySQL 5.7 Community Server
  4. baseurl=http://repo.mysql.com/yum/mysql-5.7-community/el/7/$basearch/
  5. enabled=1
  6. gpgcheck=0

2018-09-02 13:35:36    223    0    0

集群简介

ELK分别表示Elasticsearch、Logstash、Kibana,现在改名为Elastic Stack,并且增加了X-Pack、Beats等组件,是一套日志集中处理的解决方案。

  • Elasticsearch 是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。
  • Logstash 主要是用来日志的搜集、分析、过滤日志的工具,支持大量的数据获取方式,最后将数据存入ES里面。
  • Kibana 可以为ElasticSearch 提供日志分析,并且有较友好的 Web 界面,可以帮助汇总、分析和搜索重要数据日志,同时能对ES的数据本身进行监控。
  • Beats 是一个轻量级日志采集器,早期的ELK架构中使用Logstash收集、解析日志,但是Logstash对内存、cpu、io等资源消耗比较高。相比Logstash,Beats所占系统的CPU和内存几乎可以忽略不计。beats包括了6种方式的工具,这里介绍的是最常用的一种filebeat。
  • x-pack 是一个对Elastic Stack提供了安全、警报、监控、报表、图表于一身的扩展包。 

现在我们要实现的目标是:使用filebeat收集nginx的access.log、error.log,传送给logstash,logstash对这两种日志进行格式化分析,最后存入到ES种不同的索引里面,通过kibana进行数据展示。本实验所有节点都在一个机器上运行, 如果打算在多台机器上搭建,将相应的localhost改成具体的主机IP地址即可。