本书专为有一定 Spark 基础,但机器学习知识尚处零基础阶段的读者量身打造。我们深知,许多读者怀揣着利用 Spark 开发机器学习应用的热情,却发现市面上多数机器学习资料紧密围绕 Python机器学习库展开,使得不熟悉 Python机器学习库的读者望而却步。本书正是为解决这一痛点而生,我们将带领读者探索基于Python语言的Spark 的机器学习开发之路,无需过度依赖 Python 机器学习框架,为您扫除学习障碍。
配套资源包括:代码、数据。
- 目录
-
第1章 Spark机器学习库概述
-
11机器学习概述
- 111 什么是机器学习?
- 112 机器学习算法分类
- 113 机器学习数据描述
- 114 机器学习过程
- 12 Spark机器学习库
- 13 Spark机器学习管道
-
11机器学习概述
-
第2章 Spark数据探索和预处理
-
21读取数据源
- 211 文本文件数据源
- 212 CSV文件数据源
- 213 JSON文件数据源
- 214 Parquet文件数据源
- 215 ORC文件数据源
- 216 JDBC数据源
- 217 图像数据源
- 218 二进制文件数据源
-
22数据探索
- 221 Spark数据简单探索
- 222 Spark数据质量分析
- 223 Spark数据特征分析
- 224 Spark统计API
- 225 Spark统计指标
- 225 Spark数据探索示例
-
23 Spark数据预处理
- 231 Spark数据清洗
- 232 Spark数据集成
- 233 Spark属性转换
-
24 Spark数据预处理示例
- 241 京东股票历史数据预处理
- 242 电商美妆销售数据预处理
-
21读取数据源
-
第3章 Spark ML特征工程
- 31特征工程概念
- 32特征分类
-
32特征转换-连续特征
- 321 连续特征离散化
- 322 连续特征标准化
-
33特征转换-分类特征
- 331 StringIndexer
- 332 IndexToString
- 333 VectorIndexer
- 334 OneHotEncoder
-
34特征转换-文本数据
- 341 文本分词
- 342 停止词
- 343 创建单词组合n-gram
- 344 将单词转换为数字表示形式
-
35特征操作
- 351 主成分分析(PCA)
- 352 特征交互(Interaction)
- 353 多项式展开
- 354 RFormula转换
- 355 特征装配
-
36特征选择
- 361 卡方假设检验
- 362 卡方选择器
- 363 单变量特征选择器
-
第4章 Spark ML分类算法基础
-
41分类任务概述
- 411 懒惰的学习者Vs渴望的学习者
- 412 不同类型的分类任务
- 413 Spark ML库的分类算法实现
-
42 Logistic回归实现二分类任务
- 421 基本原理
- 422 示例:客户购买预测
-
43 Logistic回归实现多分类任务
- 431 one-vs-one和one-vs-rest策略
- 432 示例:鸢尾花分类预测
-
44多项Logistic回归实现多分类任务
- 441 Softmax函数
- 442 示例:手写数字识别
-
45分类模型评估
- 451 混淆矩阵
- 452 ROC曲线和AUC值
- 453 正确选择评价指标的策略
- 454 示例:客户购买预测模型评估
- 455 示例:鸢尾花分类预测模型评估
- 456 示例:手写数字识别预测模型评估
-
46模型选择与调优
- 461 参数调优
- 462 交叉验证
- 463 Spark ML模型选择
-
47模型保存和加载
- 471 MLWriter抽象类
- 472 MLReader抽象类
- 473 示例:存储和调用最优模型
-
48应用机器学习管道
- 481 管道相关的API
- 482 管道的存储和加载
- 483 机器学习管道示例
- 484 示例:垃圾邮件分类
-
41分类任务概述
-
第5章 Spark ML分类算法进阶
-
51决策树分类器
- 511 决策树算法简介
- 512 决策树算法原理
- 513 Spark决策树分类器
- 514 示例:使用决策树预测鸢尾花分类
-
52朴素贝叶斯分类器
- 521 贝叶斯定理
- 522 贝叶斯推断
- 523 全概率公式
- 524 贝叶斯定理应用
- 525 Spark贝叶斯分类器
- 526 示例:Spark朴素贝叶斯分类器
-
53多层感知机分类器
- 531 感知机算法原理
- 532 感知机分类实现
- 533 多层感知机算法
- 534 Spark多层感知机分类器
- 535 示例:Spark多层感知机分类器
-
54线性支持向量机分类器
- 541 支持向量机算法简介
- 542 线性支持向量机
- 543 非线性支持向量机
- 544 示例:Spark SVM实现分类任务
-
55因子分解机分类器
- 551 因子分解机算法简介
- 552 因子分解机特征工程
- 552 示例:Spark FM分类器实现二分类任务
-
51决策树分类器
-
第6章 Spark ML回归算法基础
-
61回归任务概述
- 611 回归分析介绍
- 612 实现回归的不同方法
- 613 回归与分类的区别
-
62线性回归算法原理
- 621 线性回归算法简介
- 622 线性回归算法理解
- 623 多元线性回归
- 63 Spark ML回归算法实现
-
64 线性回归实现二手房价格预测
- 641 Spark回归算法类LinearRegression
- 642 示例:二手房价格预测
-
64回归模型评估
- 641 决定系数或R平方(R2)
- 642 均方根误差(RMSE)
- 643 过拟合与欠拟合
- 644 线性回归中的假设
- 645 示例:二手房价格预测模型评估
- 65应用机器学习管道
- 66回归模型调优
- 67模型保存和加载
-
61回归任务概述
-
第7章 Spark ML回归算法进阶
-
71广义线性回归
- 711 什么是广义线性回归
- 712 广义线性回归Spark实现
- 713 广义线性回归示例
- 714 广义线性回归预测二手房价格
-
72决策树回归
- 721 决策树回归算法
- 722 决策树回归预测共享单车租用数量
-
73生存回归
- 731 什么是生存分析
- 732 生存回归模型
- 733 生存回归示例
- 734 生存回归预测生存概率
-
74保序回归
- 741 什么是保序回归
- 742 保序回归模型
- 743 保序回归示例
-
75因子分解机回归
- 751 因子分解机模型
- 752 因子分解机示例
-
71广义线性回归
-
第8章 Spark ML聚类算法
- 81聚类任务概述
- 82理解K-Means聚类算法原理
- 83 Spark ML聚类算法实现
- 84示例:应用聚类算法对鸢尾花进行分类
- 85示例:应用聚类算法对学生的知识水平进行分类
-
第9章 Spark ML推荐算法
-
91协同过滤算法介绍
- 911 基于用户的协同过滤(UserCF)
- 912 基于物品的协同过滤(ItemCF)
- 913 选择UserCF还是ItemCF?
- 914 基于矩阵分解的协同过滤
-
92 Spark协同过滤算法实现
- 921 Spark ALS算法实现
- 922 模型超参数
- 923 冷启动策略
- 924 Spark.ml ALS算法应用示例
-
93示例:构建幽默故事推荐系统
- 931 加载数据集
- 932 数据探索
- 933 拆分数据集
- 934 模型训练和预测
- 935 模型评估
- 936 模型调优
- 937 模型存储与加载
- 938 推荐幽默故事
-
94频繁模式挖掘
- 941 理解频繁模式挖掘算法
- 942 频繁模式挖掘支持业务分析
- 943 Spark实现FPGrowth
- 944 Spark实现PrefixSpan
-
95示例:使用FP-Growth的市场购物篮分析
- 951 什么是购物蓝分析
- 952 示例流程和数据说明
- 953 数据摄取
- 954 数据探索
- 955 整理购物篮
- 956 训练ML模型
- 957 查看关联规则
-
91协同过滤算法介绍
-
第10章 Spark ML集成学习算法
-
101集成学习算法概述
- 1011 装袋(Bagging)
- 1012 提升(Boosting)
-
102随机森林算法
- 1021 随机森林算法简介
- 1022 随机森林算法原理
- 1023 Spark随机森林算法实现
- 1024 示例:使用Spark随机森林分类算法预测婚外情
- 1025 示例:使用Spark随机森林回归算法预测房价
-
103梯度提升决策树算法
- 1031 什么是梯度提升?
- 1032 什么是梯度提升树?
- 1033 梯度提升树算法原理
- 1034 配置梯度提升模型
- 1035 Spark梯度提升树实现
- 1036 示例:CTR广告点击预测
- 1037 示例:波士顿房价预测
- 1038 示例:共享单车租赁数量预测
-
104 XGBoost算法
- 1041 XGBoost算法简介
- 1042 XGBoost与PySpark集成
- 1043 XGBoost分类任务示例
- 1044 XGBoost回归任务示例
- 1045 示例:使用XGBoost对鸢尾花分类
-
105 LightGBM算法
- 1051 LightGBM算法简介
- 1052 SynapseML中的LightGBM
- 1053 LightGBM模型参数
- 1054 LightGBM on Spark应用
-
101集成学习算法概述
-
第11章 Spark自然语言处理
- 111 什么是NLP?
-
112 Spark NLP库简介
- 1121 Spark NPL库的特点
- 1122 为什么我们需要Spark NPL库?
- 1123 Spark NPL库的应用
-
113安装Spark NLP库
- 1131 安装spark-nlp
- 1132 测试spark-nlp
- 114 基本组件和底层技术
-
115 使用注释器
- 1151 DocumentAssembler
- 1152 SentenceDetector
- 1153 Tokenizer
- 1154 RegexTokenizer
- 1154 TextMatcher
- 1155 BigTextMatcher
- 1156 RegexMatcher
- 1157 ChunkTokenizer
- 1158 DateMatcher
- 1159 Normalizer
- 11510 Finisher
- 11511 NGram
- 11512 NGramGenerator
- 11513 SentenceEmbeddings
- 11514 StopWordsCleaner
-
116 使用预训练模型
- 1161 查看可用的预训练模型
- 1162 词性标注
- 1163 词性还原
- 1164 句子检测
- 1165 嵌入
- 1166 文本分类
- 1167 情感分析
- 1168 文本摘要
- 1169 依存句法分析
- 11610 命名实体识别
-
117 使用预训练管道
- 1171 预训练管道介绍
- 1172 explain_document_ml
- 1173 explain_document_dl
- 1174 onto_recognize_entities_sm
- 1175 将预训练管道用于DataFrame
- 1176 使用LightPipeline
-
118 案例:影评数据情感分析
- 1181 背景和任务目的
- 1182了解影评数据
- 1183 准备影评数据
- 1184 选择预训练模型
- 1185 保存分析结果
- 1186 换一种模型
-
附录
- 附录1.Spark练习环境下载
-
附录2词性缩写及其含义
- 名词相关
- 动词相关
- 限定词和介词
- 形容词
- 代词和标点符号
前 言
在当今数据驱动的时代,大数据与机器学习已成为推动技术进步和商业创新的核心动力。Apache Spark作为目前最流行的大数据处理框架之一,凭借其卓越的性能和易用性,在业界获得了广泛应用。而Python作为数据科学领域的首选语言,与Spark的结合(PySpark)为数据科学家和工程师提供了强大的工具集。
本书旨在填补市面上PySpark机器学习实践指导的空白,特别为那些已经具备一定PySpark基础但希望系统学习机器学习的读者而编写。与其他同类书籍不同,我们避免了复杂的数学推导和Scala语言的学习曲线,而是采用"原理-工具-实践"三位一体的教学方法,让读者能够快速上手并应用PySpark解决实际的机器学习问题。
本书特色鲜明:
ü 全Python实现:完全基于PySpark API,无需额外学习Scala语言。
ü 零基础友好:从机器学习基础概念讲起,循序渐进。
ü 实战导向:每个知识点都配有Zeppelin Notebook中的可运行示例。
ü 环境完备:提供预配置好的Hadoop和PySpark机器学习环境。
ü 平衡讲解:适当讲解算法原理,重点突出Spark实现和应用。
通过本书,您将掌握使用PySpark解决分类、回归、聚类、推荐、自然语言处理等常见机器学习任务的能力,并了解特征工程、模型评估与优化等关键环节。我们相信,这种注重实践的学习方式能让您在短时间内获得可应用于实际工作的技能。- 《Python爬虫技术》 (3007次下载)
- 《Spark实用教程_scala语言》 (261次下载)
- 《Flink实用教程_scala和python双语版》 (84次下载)
- 《PySpark实用教程_python语言》 (44次下载)
- 《Spark机器学习_scala语言》 (15次下载)
挣积分
用户可以上传项目资源到本站,我们会根据资源的质量和价值计算积分给用户。
用户可以使用自己账号下的积分换取本站VIP资源(教程、项目、图书等)。
请联系我们
- Email:zz_kapper@163.com
- QQ:185314368(张老师)