分类 - 大数据分析

2020-07-20 01:47:08    57    0    0

尽管Elasticsearch需要很少的配置,但是在上线之前,还是需要考虑许多设置的。

一. 系统配置

查看常见系统配置

  1. # 查看memory_lock
  2. GET _nodes?filter_path=**.mlockall
  3. # 查看系统描述符
  4. GET _nodes/stats/process?filter_path=**.max_file_descriptors


1.1 max number of open files

  • ulimit
    ulimit 可以临时修改,重启失效。
2020-03-14 22:53:12    76    0    0

    Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD。Pair RDD 是很多程序的构成要素,因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。

 

一. 创建Pair RDD

    在 Spark 中有很多种创建 pair RDD 的方式。很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的 pair

2020-03-13 18:54:40    43    0    0

RDD基础

    Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象,甚至可以包含用户自定义的对象。用户可以使用两种方法创建 RDD:读取一个外部数据集,或在驱动器程序里分发驱动器程序中的对象集合(比如 list 和 set)。

val line
2020-03-13 13:45:41    45    0    0

基本示例

在 Spark 中,通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行计算。这样的数据集被称为弹性分布式数据集(resilient distributed dataset),简称 RDD。RDD 是 Spark 对分布式数据和计算的基本抽象。

tar -zxf spark-2.4.5-bin-hadoop2.6.tgz
cd spark-2.4.5-bin
2020-02-21 22:19:18    34    0    0

Spark是什么

Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比 MapReduce 更加高效。


Spark 所提供的接口非常丰富。除

2020-01-15 22:35:17    45    0    0

一. 概要

  在 Hadoop 1.0 时代,NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于 HDFS 的各个组件,包括 MapReduce、Hive、Pig 以及 HBase 等也都无法正常工作,并且重新启动 NameNode 和进行数据恢复的过程也会比较耗时。这些问题在给 Hadoop 的使用者带来了极大的困扰。所幸的是,在 Hadoop2.0 中,HDFS NameNode 和 YARN ResourceManger 的单点问题都得到了解决。下面是整体架构图。

2020-01-15 18:18:47    43    0    0

入门hadoop相对于其他技术来说要稍微难一点,因为它的复杂性决定了它的学习曲线,不过在类似CHD这样的工具出现以后给hadoop的维护管理带来了方便,下面是针对初学者来说的一个简单组件描述。

一、NameNode

  • NameNode维护着文件系统树及整棵树内的所有文件和目录,它保存了整个集群文件系统的元数据信息,元数据信息存在于内存中,会不间断地往磁盘上镜像成文件,叫做fsimageNameNode负责文件元数据信息的操作,这些操作日志会存下来,叫做edits日志。NameNode也记录着每个文件中各个块所在的数据节点信息,但是它并不会永久保存块的位置信息,因为这些信息会在启动时,根据DataNode数据节点上报而重建。

  • 元数据
    元数据包括文件名,目录结构,文件创建时间,文件副本数,文件权限,每个文件的block列表等。

  • fsimage文件
    元数据的镜像文件。为了保证fsimage文件的高可用,一般的做法是将dfs.namenode.name.dir设置成逗号分隔的多个目录,且多个目录至少不要在一块磁盘上。

2019-10-25 10:02:42    52    0    0

一、单机单broker快速上手

  1. $ 解压并进入目录
  2. tar -xzf kafka_2.11-2.3.0.tgz
  3. mv kafka_2.11-2.3.0 /opt/kafka
  4. cd /opt/kafka
  5. $ 启动zookeeper
  6. nohup ./bin/zookeeper-server-start.sh config/zookeeper.properties &
  7. $ 启动kafka
  8. nohup ./bin/kafka-server-start.sh config/server.properties &

2019-10-24 19:42:17    203    0    0

一、概要说明

  • HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。
  • HBase shell是HBase的一套命令行工具,类似传统数据中的sql概念,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,如果配置了HBase的环境变量,只要在
2019-10-21 17:47:40    92    0    0

一、5.7版本仓库配置

  1. # cat /etc/yum.repos.d/mysql.repo
  2. [mysql57-community]
  3. name=MySQL 5.7 Community Server
  4. baseurl=http://repo.mysql.com/yum/mysql-5.7-community/el/7/$basearch/
  5. enabled=1
  6. gpgcheck=0