Spark大数据开发

Spark大数据开发 教材名称: Spark大数据开发
ISBN号: 978-7-89436-788-4 作者: 唐春玲 周桥 陈小龙
字数: 385千字 规格: 16开
印制时间: 2020-08-01 出版日期: 2020-08-01
定价: 45 元 样章下载: Spark大数据开发—正文样章.pdf
购买地址:

教材基于Spark数据处理工作过程,共分为六个学习情景,每个学习情境分为若干个典型工作环节,各学习情境对大数据各主要功能模块的基本概念进行了描述,并提炼出了典型的工作环节,每个工作环节都采用理论与实践相结合的阐述方式,同时做了相关的编程实现。每个学习情境的内容既体现了大数据技术在企业的实际应用和工作过程,又提供了在学习中发现问题、分析问题、解决问题的途径,具体内容如下:
学习情境一 搭建Spark开发环境
内容包括Spark概述,Spark生态圈,Spark应用场景,Spark平台单机模式、伪分布式模式、完全分布式模式环境的搭建。
学习情境二 使用Scala统计平台数据
内容包括Scala语言介绍,搭建Scala开发环境,Scala编程基础,Scala语言语法,Scala面向对象编程基础,Scala常用的数据结构,使用Scala语言统计大数据平台岗位数据。
学习情境三 使用RDD统计平台数据
内容包括RDD架构原理,Spark RDD编程基础,使用RDD统计平台职位数据。
学习情境四 使用Spark SQL分析用人单位数据
内容包括认识Hive和Spark SQL,Spark SQL开发环境搭建,导入数据到Hive,使用Spark SQL分析平台数据。
学习情境五 使用Spark Streaming分析平台数据
内容包括Spark Streaming内容介绍,Spark Streaming开发环境搭建,使用Spark Streaming分析平台数据。
学习情境六 使用GraphX与ML分析平台数据
内容包括GraphX介绍,使用GraphX分析平台数据,Machine Learning介绍,常用Spark MLlib机器学习库API,使用ML分析平台数据。
编写团队
主审由胡方霞(教授,重庆市优秀教师,省级教学名师,省级中青年骨干教师,国家级骨干专业带头人,国家级物联网与大数据协同创新中心负责人,省级教学团队负责人,省级教学成果奖主持人,省级精品资源共享课程负责人)、高鸿(辽宁省教科院副院长,辽宁省职业技术教育学会常务副会长,中国职业技术教育学会常务理事、学术委员,全国职业教育集团化办学专家组副组长,全国现代学徒制工作专家指导委员会委员)担任,胡方霞负责学习情境一、学习情境二、学习情境三的审核工作。高鸿负责学习情境四、学习情境五、学习情境六的审核工作。3位主编教师和副主编(前2)均是大数据专业骨干教师,平均教龄8年,具有丰富的教学实践经验、5年以上的大数据开发企业工作经验或指导学生竞赛经验,指导学生获得国家级和省级竞赛一等奖,二等奖。朱春旭、张宾作为企业技术骨干具有5年以上大数据开发经验,同时具有3年以上教学经验。唐春玲负责整套教材的规划、设计、统稿,并编写学习情境二和学习情境四。周桥负责撰写学习情境一和学习情境三。陈小龙负责撰写学习情境六的内容。唐慧负责撰写学习情境五。李婷负责编写教材习题及答案。朱春旭和张宾负责提供本教材项目代码。
由于作者学识限制,教材中难免存在不妥之处,请读者谅解。

学习情境一搭建Spark开发环境1
1.1典型工作环节1:需求分析1
1.2典型工作环节2:步骤分析1
1.3典型工作环节3:认识Spark2
1.3.1Spark概述2
1.3.2Spark生态圈3
1.4典型工作环节4:调研Spark应用场景4
1.5典型工作环节5:准备集群系统4
1.5.1环境需求4
1.5.2配置虚拟机系统5
1.5.3密钥配置6
1.6典型工作环节6:搭建Spark平台环境17
1.6.1搭建Spark平台单机模式17
1.6.2搭建Spark平台伪分布式模式21
1.6.3搭建Spark平台完全分布式模式22
1.7归纳总结与拓展提高24
1.8课后练习24
学习情境二使用Scala统计平台数据26
2.1典型工作环节1:需求分析26
2.2典型工作环节2:步骤分析26
2.3典型工作环节3:优选系统开发语言27
2.4典型工作环节4:了解Scala语言27
2.5典型工作环节5:搭建开发环境28
2.5.1安装Scala SDK28
2.5.2安装IntelliJ IDEA32
2.5.3安装IntelliJ IDEA Scala开发插件34
2.6典型工作环节6:学习Scala语言40
2.6.1Scala编程基础40
2.6.2Scala基本语法44
2.6.3Scala面向对象编程基础66
2.6.4Scala常用的数据结构71
2.7典型工作环节7:统计大数据平台岗位数据83
2.8归纳总结与拓展提高86
2.9课后练习87
学习情境三使用RDD统计平台数据89
3.1典型工作环节1:需求分析89
3.2典型工作环节2:步骤分析89
3.3典型工作环节3:学习RDD架构原理与入门90
3.3.1RDD构架原理90
3.3.2RDD入门概要92
3.3.3Spark程序的运行流程93
3.4典型工作环节4: 学习Spark RDD编程基础94
3.4.1配置环境94
3.4.2提交任务到集群94
3.4.3读取数据生成RDD99
3.4.4保存RDD中的数据101
3.4.5RDD进行数据运算102
3.4.6使用RDD对平台职业数据进行处理105
3.5典型工作环节5:使用RDD统计平台职位数据117
3.5.1统计全国所有职位总数117
3.5.2统计发布职位最多的5个地区118
3.5.3统计各地区职位数占比119
3.5.4筛选职位数据120
3.6归纳总结与拓展提高121
3.7课后练习121
学习情境四使用Spark SQL分析用人单位数据123
4.1典型工作环节1:需求分析123
4.2典型工作环节2:步骤分析123
4.3典型工作环节3:认识Hive和Spark SQL124
4.3.1认识Hive124
4.3.2认识Spark SQL124
4.4典型工作环节4:系统开发环境搭建125
4.4.1安装MySQL125
4.4.2安装Hive126
4.4.3安装Hadoop127
4.4.4Spark集成Hive129
4.5典型工作环节5:导入数据到Hive130
4.6典型工作环节6:使用Spark SQL分析平台数据132
4.6.1统计维度1:分析用人单位性质132
4.6.2统计维度2:分析用人单位所在城市133
4.6.3统计维度3:分析用人单位提供的职位数135
4.7归纳总结与拓展提高136
4.8课后练习136
学习情境五使用Spark Streaming分析平台数据137
5.1典型工作环节1:需求分析137
5.2典型工作环节2:系统设计137
5.3典型工作环节3:学习流计算138
5.3.1流数据138
5.3.2流计算138
5.4典型工作环节4:学习Spark Streaming139
5.4.1Spark Streaming概述139
5.4.2DStream操作140
5.4.3Kafka概述141
5.5典型工作环节5:系统开发环境搭建141
5.5.1Kafka安装与配置142
5.5.2Spark Streaming集成Kafka143
5.6典型工作环节6:使用Spark Streaming分析平台数据144
5.6.1Spark Streaming程序使用Kafka数据源144
5.6.2导入职位数据到Kafka147
5.6.3统计维度1:实时统计各区域职位发布个数149
5.6.4统计维度2:实时统计职位总数150
5.7归纳总结与拓展提高152
5.8课后练习153
学习情境六使用GraphX与ML分析平台数据154
6.1典型工作环节1:需求分析154
6.2典型工作环节2:步骤分析155
6.3典型工作环节3:认识GraphX155
6.4典型工作环节4:使用GraphX分析平台数据156
6.5典型工作环节5:认识Machine Learning158
6.6典型工作环节6:常用Spark MLlib机器学习库API160
6.7典型工作环节7:使用ML分析平台数据162
6.8归纳总结与拓展提高165
6.9课后练习165
工作任务单1167
工作任务单2181
工作任务单3195
工作任务单4209
工作任务单5223
工作任务单6237
参考文献251

本教材系重庆工商职业学院——首批国家级职业教育教师教学创新团队联合四川华迪信息技术有限公司、大连东软教育科技集团有限公司编写的基于工作过程系统化的大数据专业“活页式”“工作手册式”系列教材之一。教材中使用的“职业能力分析大数据服务平台”项目由创新团队成员和四川华迪信息技术有限公司共同完成。依托数字工场和省级“双师型”教师培养培训基地,由创新团队成员和企业工程师组成教材编写团队,目的是打造高素质“双师型”教师队伍,深化职业院校教师、教材、教法“三教”改革,探索产教融合、校企“双元”有效育人模式。教材编写初衷是使大数据专业学生掌握Spark数据处理相关技术,提高学生们的大数据实际操作能力,为我国经济社会发展培养大数据技术、技能人才。
受众定位
本教材适用于想要学习Spark大数据开发的学习者,也可作为应用型本科、高职高专大数据及相关专业教材。