第1章Hadoop介绍

Imagemap
第1章Hadoop介绍1.1Hadoop概述简介大数据特点4V大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(V ...自然界中,哪种数据类型最多:非结构化数据发展历史2002.Doug Cutting创建Nutch2003.Google发布了GFS和MapReduce论文2004.Doug Cutting研究出Nutch的GFS和MapReduce2006.Doug Cutting加入Yahoo,Hadoop成立2007.纽约时报在Ec2上转换4TB图片数据2008.Cloudera成立;Facebook团队开发Hive;910个节点对 ...2009.Yahoo对1TB数据排序62s2011.Yahoo的Hortonworks成立2012.Hortonworks的Yarn出v12013.Hortonworks完全开源2016.Hadoop生态圈广泛应用特点HDFS特点A. 高可靠性B. 高效性C. 高容错性D. 成本低E.高扩展性F.基本框架是Java编写的G.可构建在廉价机器上1.2Hadoop核心分布式文件系统HDFSHDFS架构及简介HDFS文件系统主要包括一个NameNode, 一个 Secondary Nam ...组成元数据三类信息文件和目录属性文件名、目录名、大小、时间等文件内容存储的相关信息文件块、副本数、副本所在的DataNode所有DataNode的信息NameNodeSN:Secondary NameNodeDataNode数据块HDFS分布式原理利用多个节点共同协作完成一项或多项具体业务功能的系统就是分布式系统分布式文件系统是分布式系统的一个子集,其解决的问题就是数据存储HDFS作为分布式文件系统体现在三个方面HDFS分布在多个集群节点上的文件系统文件存储时被分布在多个节点上HDFS宕机处理HDFS特点优点高容错性适合大数据的处理流式数据访问缺点不适合低延时数据访问无法高效存储大量小文件不支持多用户写入及任务修改文件调度策略FIFO:先进先出分布式计算框架MapReduce简介工作原理集群资源管理器YARN简介https://hadoop.apache.org/docs/stable/ha ...YARN:Yet Another Resource Negotiator:另外一 ...基本架构ResourceManager(RM)NodeManager(NM)ApplicationMaster(AM)ClientApplication任务流程Hadoop3.x与2.xHadoop2.xJob Tracker是Map-reduce框架的中心,他需要与集群中的机器定时 ...TaskTracker是Map-Reduce集群中每台机器都有的一个部分,他做的 ...Hadoop3.xYARN 替代了单独存在的 JobTracker 与 TaskTracker取代(Job Tracker,TaskTracker)的是ResourceMan ...1.3Hadoop生态系统Nutchhttps://nutch.apache.org/Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需 ...HBase针对非结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库针对BigTable的开源实现名称来源于Hadoop database访问接口1. Native Java API,最常规和高效的访问方式,适合Hadoop  ...2. HBase Shell,HBase的命令行工具,最简单的接口,适合HBas ...3. Thrift Gateway,利用Thrift序列化技术,支持C++,PH ...4. REST Gateway,支持REST 风格的Http API访问HBas ...5. Pig,可以使用Pig Latin流式编程语言来操作HBase中的数据,和 ...6. Hive,可以使用类似SQL语言来访问HBaseThrifthttps://thrift.apache.org/thrift是一个软件框架,用来进行可扩展且跨语言服务的开发。thrift允许定 ...Lucenehttps://lucene.apache.org/Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个 ...Hive是建立在Hadoop上的数据仓库基础构架。它提供的工具可存储、查询、分析存储中大 ...Pig是基于Hadoop的大规模数据分析框架,Pig Latin语言也能转换成MapR ...Pig与Hive区别https://blog.csdn.net/weixin_33721344/ar ...Sqoop开源工具,主要用于Hadoop(Hive)与传统数据(Mysql、Postgre ...Flumehttps://flume.apache.org/海量日志采集、聚合和传输系统下载https://flume.apache.org/download.htmlwget https://dlcdn.apache.org/flume/1.9. ...解压tar -xvf  ./apache-flume-1.9.0-bin.tar.g ...mv ./apache-flume-1.9.0-bin /usr/local/f ...使用帮助https://flume.apache.org/releases/conten ...启动bin/flume-ng agent -n $agent_name -c con ...Ooziehttps://oozie.apache.org/中文:驯象人;功能:是Hadoop调度器,可调度MapReduce,Pig,Hi ...ZooKeeper分布式环境下的数据管理问题:统一命名、状态同步、集群管理、配置同步等Mahout中文:管象的人机器学习经典算法:聚类、分类、推荐引擎等数据挖掘方法;还包含数据输入输出工具、与 ...SolrSolr(读作“solar”)是Apache Lucene项目的开源企业搜索(英 ...Avrohttps://avro.apache.org/文档:https://avro.apache.org/docs/current/ ...一个数据序列化的系统1.4Hadoop应用场景在线旅游移动数据电子商务能源开采图像处理诈骗检测IT安全医疗保健搜索引擎社交平台
hide
第1章Hadoop介绍
hide
1.2Hadoop核心
hide
1.3Hadoop生态系统