Hadoop

August 16, 2022

3650 views

No comments

1438 words

数据库

Hadoop

简介

大数据

大数据(BigData):指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合

大数据主要解决海量数据的采集,存储和分析计算问题

特点

volume 大量
Velocity:高速
Variety 多样
value 低价值密度

hadoop

hadoop是一个由apache基金会开发的分布式系统基础架构

主要解决海量数据的存储和分析计算问题

广义上来说,hadoop通常指的是更广泛的概念 hadoop生态圈

hadoop中有三大发新版本

apche:最基础的版本对入门学习最好
Cloudera:内部集成了许多大数据框架,对应产品CDH
hortnworks:文档较好,对应产品HDP

Hortonworks,现在已经被Cloudera公司收购,退出新的品牌CDP

优势

高可靠性:Hadoop底层维护多个数据副本,所以即使某个Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失
高扩展性:在集群间分配任务数据,可以方便的扩展数以千计的节点
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
高容错性:能够自动将失败的任务重新分配

组成

HDFS

简称HDFS(Hadoop Distributed file System),是一个分布式文件系统

NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的dataname等

DataNode:在本地文件系统存储文件块数据,以及块数据的校验和

Secondary NameNode每隔一段时间对NameNode元数据备份

Yarn概述

ResourceManager(RM):整个集群资源(内存,cpu等)的管理者

nodeManager(NM):单节点服务器资源老大

ApplicationMaster(AM):单个运行任务的管理者

Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存CPU磁盘网络等

一个Container默认的内存是1-8g

MapReduce

MapReduce将计算阶段分为俩个阶段Map和Reduce

map阶段并行处理数据
Reduce阶段对map结果进行汇总

体系

大数据生态体系

Hadoop

那随意了 • 2022 年 08 月 16 日

Hadoop

Hadoop

简介

大数据

特点

hadoop

优势

组成

HDFS

Yarn概述

MapReduce

体系

Leave a Comment Cancel reply

那些底层使用了Rocksdb的项目

docker常用命令

postForObject发送参数接方一直为null

js基础

git的常用命令

springboot定时调度竟然只支持单线程?

肺部感染识别

JVM性能调优工具

Magento开发文档(二)：Magento配置

uni app android studio打包

Hadoop