大数据综合实训

大数据综合实训 教材名称: 大数据综合实训
ISBN号: 978-7-89436-789-1 作者: 郭嗣鑫 马庆祥 方选政
字数: 741千字 规格: 16开
印制时间: 2020-08-01 出版日期: 2020-08-01
定价: 77 元 样章下载: 大数据综合实训—正文样章.pdf
购买地址:

整套教材由2个学习情境组成。
学习情境一:基于Hadoop汽车离线数据分析平台开发,共由5个典型工作环节组成。典型工作环1:主要介绍了该项目的背景、具体需求和关键技术与架构;典型工作环2:主要介绍了安装系统 (安装虚拟机软件、安装CentOS等)、安装基本开发环境、搭建Hadoop平台、搭建Hive环境和搭建HBase环境;典型工作环节3:主要介绍了数据采集环境搭建、项目构建、汽车数据采集和存储、数据采集与存储优化以及项目配置与启动;典型工作环节4:主要介绍了汽车数据清洗、数据统计和数据移动;典型工作环节5:主要介绍了系统设计、Web开发技术和搭建 Web大数据看板系统。
学习情境二:基于Spark的电影推荐平台开发,共由7个典型工作环节组成。典型工作环节1:介绍了项目背景、项目具体需求和关键技术与架构;典型工作环节2:主要介绍了安装Spark、集成Hadoop、集成Hive和安装Flume;典型工作环节3:主要介绍了爬虫程序设计、交互页面设计和推荐流程设计;典型工作环节4:主要介绍了采集电影数据、采集用户行为数据、数据探索和异常数据处理;典型工作环节5:主要介绍了数据集切分、推荐模型训练和模型测试;典型工作环节6:主要介绍了使用模型对匿名用户,特定用户进行电影推荐;典型工作环节7:主要介绍了电影推荐平台的需求分析、系统设计和功能实现。
编写团队
本教材主审由胡方霞(教授,重庆市优秀教师,省级教学名师,省级中青年骨干教师,国家级骨干专业带头人,国家级物联网与大数据协同创新中心负责人,省级教学团队负责人,省级教学成果奖主持人,省级精品资源共享课程负责人)、高鸿(辽宁省教科院副院长,辽宁省职业技术教育学会常务副会长,中国职业技术教育学会常务理事、学术委员,全国职业教育集团化办学专家组副组长,全国现代学徒制工作专家指导委员会委员)担任,胡方霞负责学习情境一的审核工作,高鸿负责学习情境二的审核工作。3位主编和副主编(前2)均是大数据专业骨干教师,平均教龄8年,具有丰富的教学实践经验、5年以上的大数据开发企业工作经验和指导学生竞赛经验,指导学生获得国际、国家级和省级竞赛一等奖。王强、张宾作为企业技术骨干具有5余年大数据开发经验,同时具有3年以上教学经验。学习情境一中的典型工作环节1至4由郭嗣鑫编写,该学习情境的典型工作环节5由荆于勤编写。学习情境二中的典型工作环节1至4由马庆祥编写,该学习情境的典型工作环节5由李晓辉编写,该学习情境的典型环节6由王强和张宾编写,该学习情境的典型工作环节7由方选政编写。
由于作者学识限制,教材中难免存在不妥之处,请读者谅解。

学习情境一基于Hadoop汽车离线数据分析平台开发
典型工作环节1分析项目需求3
1.1项目背景3
1.2具体需求3
1.3项目架构与关键技术7
1.3.1概念图7
1.3.2总体架构图8
1.3.3关键技术8
1.4项目效果展示11
典型工作环节2搭建项目开发环境17
2.1开发环境概述17
2.2目标分析17
2.3安装系统18
2.3.1安装虚拟机软件18
2.3.2安装CentOS22
2.3.3更新系统和安装vmtools 36
2.3.4创建虚拟机快照38
2.3.5克隆虚拟机39
2.4安装和使用操作工具44
2.4.1安装和使用putty45
2.4.2安装和使用Xshell53
2.4.3安装和使用WinSCP59
2.5安装Mysql数据库61
2.6安装Tomcat服务器62
2.7安装IDEA开发环境64
2.8安装Python开发环境76
2.9搭建Hadoop平台84
2.9.1搭建单机模式84
2.9.2搭建伪分布模式88
2.9.3搭建完全分布模式94
2.10搭建Hadoop高可用环境103
2.10.1ZooKeeper概述105
2.10.2搭建Hadoop高可用性平台106
2.10.3Hadoop高可用性验证121
2.10.4配置keepalived服务124
2.11搭建Hive环境129
2.12搭建Sqoop环境130
2.13搭建HBase环境132
2.14归纳总结137
2.15练习与实训137
典型工作环节3采集汽车网站数据138
3.1数据采集概述138
3.2目标分析139
3.3数据采集环境搭建139
3.4数据采集项目构建150
3.5汽车数据采集151
3.6汽车数据存储162
3.7优化数据采集与存储165
3.8数据采集项目配置和启动167
3.9归纳总结170
3.10练习与实训170
典型工作环节4清洗汽车数据172
4.1清洗数据概述172
4.2目标分析172
4.3数据清洗172
4.3.1创建mapreduce项目172
4.3.2清洗数据175
4.4数据统计183
4.4.1价格区间年销售量统计183
4.4.2价格区间月销售量统计185
4.4.3价格区间年销售量占比统计188
4.4.4汽车油耗年销售量统计190
4.4.5汽车系列年销售量统计193
4.4.6汽车系列月销售量统计195
4.4.7汽车品牌年销售量统计198
4.4.8汽车品牌月销售量统计199
4.4.9mpv汽车系列年销售量统计202
4.4.10mpv汽车系列月销售量统计205
4.4.11SUV汽车系列年销售量统计207
4.4.12SUV汽车系列月销售量统计210
4.5数据移动212
4.5.1搭建sqoop212
4.5.2sqoop连接mysql214
4.5.3数据转移217
4.6练习与实训217
典型工作环节5汽车数据可视化220
5.1汽车数据可视化概述220
5.2目标分析220
5.3系统设计221
5.3.1概要设计221
5.3.2详细设计222
5.4Web项目开发技术准备228
5.4.1框架概述228
5.4.2框架安装228
5.4.3基本概念228
5.4.4路由规则230
5.4.5视图函数231
5.4.6模板语法233
5.5搭建Web大数据看板系统235
5.6主要功能实现介绍238
5.6.1价格区间的销量分布238
5.6.2各价格区间的销量占比240
5.6.3各月度销量趋势242
5.6.4汽车品牌月销量 245
5.6.5汽车品牌年销量TOP10248
5.6.6各系轿车年销量占比251
5.6.7各系轿车每月销量走势254
5.6.8各油耗分部销售占比256
5.7归纳总结259
5.8练习与实训259学习情境二基于Spark的电影推荐平台开发
典型工作环节1分析项目需求263
6.1项目背景263
6.1.1推荐系统介绍263
6.1.2推荐系统的应用场景264
6.1.3推荐系统模型268
6.2具体需求274
6.3平台架构与关键技术275
6.3.1平台架构275
6.3.2关键技术介绍276
典型工作环节2搭建项目开发环境278
7.1开发环境概述278
7.2目标分析278
7.3安装Spark279
7.3.1单机模式279
7.3.2伪分布式模式280
7.3.3完全分布式模式281
7.4集成Hadoop283
7.5集成Hive283
7.6安装Flume283
7.7归纳总结286
7.8练习与实训286
典型工作环节3设计电影推荐系统287
8.1电影推荐系统概述287
8.2目标分析287
8.3爬虫程序设计288
8.4交互页面设计288
8.5推荐流程设计292
8.6归纳总结292
8.7练习与实训293
典型工作环节4预处理电影数据295
9.1预处理电影数据概述295
9.2目标分析295
9.3采集电影数据296
9.3.1目标站点分析296
9.3.2安装Python3298
9.3.3安装Scrapy299
9.3.4安装Redis299
9.3.5创建爬虫项目301
9.3.6构造列表页链接脚本301
9.3.7采集详情页链接302
9.3.8采集详情页内容并入库304
9.4用户行为数据采集308
9.4.1用户搜索关键词308
9.4.2用户操作日志311
9.5数据探索313
9.5.1用户搜索关键词313
9.5.2用户行为数据317
9.6处理异常数据320
9.6.1去除非电影名称的词汇320
9.6.2去除无效数据321
9.7归纳总结322
9.8练习与实训322
典型工作环节5建立推荐模型324
10.1建立推荐模型概述324
10.2目标分析324
10.3切分数据集324
10.4训练推荐模型325
10.5模型测试327
10.6归纳总结327
10.7练习与实训327
典型工作环节6使用模型进行电影推荐330
11.1电影推荐概述330
11.2目标分析330
11.3对匿名用户推荐电影331
11.4对某位会员用户推荐电影332
11.5归纳总结333
11.6练习与实训334
典型工作环节7构建项目336
12.1构建项目概述336
12.2目标分析336
12.3需求分析337
12.3.1用户角色分析338
12.3.2电影网站爬取338
12.3.3数据预处理339
12.3.4电影网站登录340
12.3.5电影网站注册341
12.3.6浏览推荐电影342
12.4系统设计343
12.4.1概要设计343
12.4.2详细设计344
12.5Web项目开发技术准备350
12.5.1Spring 框架技术350
12.5.2SpringMVC 技术380
12.5.3Mybatis技术403
12.6搭建Web推荐系统437
12.6.1搭建推荐系统框架437
12.6.2系统架构分层447
12.6.3引入前端样式459
12.7主要功能实现介绍460
12.7.1网站主页460
12.7.2注册用户说明461
12.7.3展示推荐数据461
12.8归纳总结462
12.9练习与实训462
附件活页教材文件465
参考文献487

本教材系重庆工商职业学院——首批国家级职业教育教师教学创新团队联合四川华迪信息技术有限公司、大连东软教育科技集团有限公司、重庆瀚海睿智大数据科技公司、四川川大智胜股份有限公司编写的基于工作过程系统化的大数据专业“活页式” “工作手册式”系列教材之一。
依托数字工场和省级“双师型”教师培养培训基地,由创新团队成员和企业工程师组成教材编写团队,目的是打造高素质“双师型”教师队伍,深化职业院校教师、教材、教法“三教”改革,探索产教融合、校企“双元”有效育人模式。教材编写初衷是为了使大数据专业学生掌握大数据核心技术,提高学生们的大数据实际操作能力,为进入大数据领域工作或继续深造奠定基础。
受众定位
本教材适用于应用型本科、高职高专大数据专业,及大数据相关专业教材,也可作为大数据技术开发人员自学和阅读教材。