Hadoop

Hadoop 教材名称: Hadoop
ISBN号: 978-7-89436-786-0 作者: 李良熹 施旭 荣进国
字数: 243千字 规格: 16开
印制时间: 2020-08-01 出版日期: 2020-08-01
定价: 45 元 样章下载: Hadoop开发—正文样章.pdf
购买地址:

本教材作为 Hadoop开发的入门教材,由国家级教育教师教学创新团队精心打造,覆盖了 Hadoop从环境搭建到开发再到应用各个方面。教材内容以实操为主,理论为辅,各章节均以企业实际项目案例来驱动学习,使读者对 Hadoop 实际操作应用有直观的认识,以便快速地掌握相关技能。本教材共设计八个学习情境,依次讲解Hadoop环境的搭建、HDFS分布式文件系统的管理、MapReduce编程,以及如何应用 HBase和 Hive进行数据分析。本教材重在培养学生的实际操作能力,在教学过程中强化学生的主导性,以学生发展为中心,是对“活页式”“工作手册式”教材的一次实践探索。
编写团队
本教材的编写团队由重庆工商职业学院的国家级职业教育教学创新团队联合四川华迪信息技术有限公司、大连东软教育科技集团共同组建。团队成员包括了重庆工商职业学院大数据和人工智能教研室的专业骨干教师,四川华迪信息技术有限公司的专家以及大连东软教育科技集团的职业教育专家等。
本教材主审由高鸿(辽宁省教科院副院长,辽宁省职业技术教育学会常务副会长,中国职业技术教育学会常务理事、学术委员,全国职业教育集团化办学专家组副组长,全国现代学徒制工作专家指导委员会委员)担任。
本教材的主编与副主编汇集了具有丰富企业经验的教授级高工、从事多年大数据、计算机网络教学的“双师型”教师和具有丰富项目经验的资深工程师,确保了教材中的项目化案例具有典型性和代表性,教材内容的编排符合现代学习规律以及适合教学。本教材学习情境一由胡方霞、荣进国负责编写,学习情境二由黄伟负责编写,学习情境三由黄伟、施旭负责编写,学习情境四、五由李良熹、陶建兵负责编写,学习情境六由施旭负责编写,学习情境七、八由李雪、李良熹负责编写。同时,本教材提供了丰富的教学资源,包括教学PPT、项目源代码、课后习题和答案,方便教师进行教学。
在本教材的编写过程中,得到了重庆工商职业学院领导和大连东软教育科技集团有限公司的大力支持,四川华迪信息技术有限公司的工程师也给出了大量的修改意见,在此表示诚挚的感谢。
由于编者水平有限,文中不妥或错误之处在所难免,期望广大读者批评指正。

学习情境一走进大数据1
1.1典型工作环节1: 需求分析1
1.2典型工作环节2: 方案设计2
1.3典型工作环节3: 项目实施2
1.3.1查询招聘网站2
1.3.2查询搜索引擎3
1.4典型工作环节4: 项目验收3
1.4.1大数据开发工程师职业能力模型3
1.4.2Hadoop平台介绍6
1.5练习与实训9
学习情境二搭建Hadoop平台10
2.1典型工作环节1: 需求分析10
2.1.1早期数据平台状况10
2.1.2目前数据平台的需求10
2.2典型工作环节2: 方案设计11
2.2.1整体设计思路11
2.2.2Hadoop平台设计11
2.3典型工作环节3: 项目实施规划12
2.3.1安装虚拟机12
2.3.2安装并初始化配置CentOS操作系统13
2.3.3系统实施35
2.4典型工作环节4: 项目测试与验收43
2.4.1验证HDFS43
2.4.2验证Yarn44
学习情境三存取HDFS的数据45
3.1典型工作环节1: 需求分析45
3.1.1大数据平台现有文件系统状况45
3.1.2目前针对Hadoop平台中HDFS的要求45
3.2典型工作环节2:方案设计46
3.2.1探索HDFS的优、劣势46
3.2.2剖析HDFS读取写入文件的原理46
3.3典型工作环节3: 项目实施规划49
3.3.1使用HDFSSHELL存储数据49
3.3.2使用JAVAAPI存储数据51
3.4典型工作环节4: 项目测试与验收56
3.4.1使用JAVAAPI存储数据 项目测试与验收56
3.5练习与实训61
学习情境四MapReduce入门词频统计62
4.1典型工作环节1: 需求分析62
4.1.1Hadoop MapReduce 简介62
4.1.2MapReduce 的优、缺点63
4.1.3MapReduce 分布式计算原理63
4.1.4MapReduce 执行流程64
4.2典型工作环节2: 方案设计65
4.2.1词频统计原理65
4.2.2MapReduce 程序编写流程65
4.2.3MapReduce 数据结构65
4.2.4Mapper 设计66
4.2.5Reducer 设计67
4.3典型工作环节3: 项目实施67
4.3.1MapReduce 开发环境准备67
4.3.2MapReduce 项目创建68
4.3.3编写 Mapper 68
4.3.4编写 Reducer69
4.3.5编写 MapReduce 作业启动类70
4.3.6打包上传 MapReduce 程序71
4.4典型工作环节4: 验收测试72
4.4.1上传测试文件72
4.4.2验证测试结果72
4.5归纳总结72
4.6拓展提高73
学习情境五MapReduce进阶薪酬统计74
5.1典型工作环节1 :需求分析74
5.1.1招聘数据原始结构74
5.2典型工作环节2: 方案设计74
5.2.1自定义对象75
5.2.2自定义序列化75
5.3典型工作环节3: 项目实施76
5.3.1创建项目SalaryAnalyse76
5.3.2编写自定义类SalaryRange76
5.3.3编写 Mapper 77
5.3.4编写 Reducer78
5.3.5编写MapReduce 作业启动类79
5.3.6打包上传 MapReduce 程序79
5.4典型工作环节4: 验收测试80
5.4.1上传测试文件80
5.4.2验证测试结果80
5.5归纳总结80
5.6拓展提高80
5.7练习与实训81
学习情境六HBase数据库入门83
6.1典型工作环节1: 需求分析83
6.2典型工作环节2: 方案设计84
6.2.1HBase存储机理84
6.2.2HBase体系结构87
6.2.3HBase数据模型90
6.3典型工作环节3: 项目实施规划91
6.3.1HBase安装及配置91
6.3.2Hbase操作数据94
6.3.3职位数据排行115
6.4典型工作环节4: 项目测试与验收127
6.5归纳总结128
6.6拓展提高128
6.7练习与实训130
学习情境七使用Hive HQL分析招聘信息132
7.1典型工作环节1: 需求分析132
7.1.1目前的情况132
7.1.2目前的需求133
7.2典型工作环节2: 方案设计133
7.2.1方案选型133
7.2.2Hive 的特点133
7.2.3Hive 体系结构134
7.2.4Hive 运行环境设计135
7.2.5Hive 数据库和表设计136
7.3典型工作环节3: 项目实施137
7.3.1搭建 Hive 环境137
7.3.2项目人员培训138
7.3.3上传招聘数据文件139
7.3.4创建数据库和外部表139
7.3.5使用Hive 按城市统计招聘数和平均工资141
7.4典型工作环节4: 验收测试142
7.5归纳总结142
7.6拓展提高142
学习情境八使用Hive分区表分析销售信息143
8.1典型工作环节1: 需求分析143
8.1.1目前的情况143
8.1.2当前的需求144
8.2典型工作环节2:方案设计144
8.2.1方案选型145
8.2.2设计分区字段145
8.3典型工作环节3: 项目实施146
8.3.1上传销售数据146
8.3.2创建数据库和分区表146
8.3.3使用分区进行销售信息的统计147
8.4典型工作环节4: 验收测试148
8.5归纳总结148
8.6拓展提高148
8.7练习与实训149
附录151
参考文献156

 

本教材系重庆工商职业学院——首批国家级职业教育教师教学创新团队联合四川华迪信息技术有限公司、大连东软教育科技集团有限公司编写的基于工作过程系统化的大数据专业“活页式”“工作手册式”系列教材之一。
依托数字工场和省级“双师型”教师培养培训基地,由创新团队成员和企业工程师组成教材编写团队,目的是打造高素质“双师型”教师队伍,深化职业院校教师、教材、教法“三教”改革,探索产教融合、校企“双元”有效育人模式。本教材依托大数据开发的八个学习情境,基于典型工作过程,将每个情境分解为需求分析、方案设计、项目实施、测试验收等典型工作环节,将知识点融入典型工作环节中,项目内容迭代展开、难度循序递进,同时融入实际项目的设计理念,使读者在学习过程中不仅能够提升开发能力,而且逐渐形成真实项目开发思维。
本教材的编写初衷是使学生在已经掌握了Java编程基础的情况下,掌握大数据的核心技能——Hadoop开发能力,为下一步从事大数据相关岗位打下基础。也希望为满足中国经济社会发展需求培养大数据技术、技能人才。
受众定位
本教材可作为应用型本科和高职高专院校大数据专业学生的专业课教材,也可作为具备一定Java编程基础和 Linux系统基础的人员自学 Hadoop开发的参考教材。因本教材按照学习情境由浅入深,所以没有大数据背景知识的读者,也能够按照本教材的步骤导引搭建属于自己的大数据集群进行大数据开发的学习。