清华大学出版社出版,基于Flink 1.13.2,提供面向入门小白的Flink系统教程和案例。所有示例和案例代码均为Scala和Java双语实现。
本书包含配套资源:代码、数据、视频、课件PPT。
实时数据分析一直是个热门话题,需要实时数据分析的场景也越来越多,如金融支付中的风控、基础运维中的监控告警、实时大盘之外,AI模型也需要消费更为实时的聚合结果来达到很好的预测效果。
Apache Flink是下一代开源大数据处理引擎。它是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
Apache Flink已经被证明可以扩展到数千个内核和TB级的应用程序状态,提供高吞吐量和低延迟,并支持世界上一些要求最高的流处理应用程序。例如,Apache Flink在2019年阿里巴巴双11场景中突破实时计算消息处理峰值达到25亿条/秒,2020年双11当时的实时计算峰值达到了破纪录的每秒40亿条记录,数据量也达到了惊人的7TB每秒,相当于一秒钟需要读完500万本《新华字典》!随着2020年双11阿里基于Flink实时计算场景的成功,毋庸置疑,Flink将会加速成为大厂主流的数据处理框架,最终化身下一代大数据处理标准。
Apache Flink作为当前最热门的实时计算框架,是从业人员以及希望进入大数据行业人员必须要学习和掌握的大数据技术之一。但是作为大数据的初学者,在学习Flink时通常会遇到以下几个难题:
- (1) 缺少面向零基础小白的Flink入门教程。
- (2) 缺少系统化的Flink大数据教程。
- (3) 现有的Flink资料、教程或图书过时陈旧。
- (4) 官方全英文文档难以阅读和理解。
- (5) 缺少必要的数据集、可运行的实验案例及学习平台。
- ......
特别是Apache Flink从2019年被阿里巴巴收购以后,进入快速版本迭代时代,不但版本更新快,而且API变化频繁,笔者在应用和研究Apache Flink时,每当遇到Flink版本更新,就不得不花费大量精力重构已经的代码。
为此,既是为了笔者自己能更系统更及时地跟进Flink的演进和迭代,另一方面也是为了解决面向零基础小白学习Flink(以及其他大数据技术)的入门难度,编写了这一本《Flink实用教程》。个人以为,本书具有以下几个特点:
- (1) 面向零基础小白,知识点深浅适当,代码完整易懂。
- (2) 内容全面系统,包括架构原理、开发环境及程序部署、流和批计算等,并特别包含了第7章“基于Flink构建批流一体数仓”和第8章“基于Flink和数据湖构建实时数仓”内容。
- (3) 所有代码均基于Flink 1.13.2。
- (4) 双语实现,大部分示例、案例,均包含Scala和Java两种语言版本的实现。
本书特别适合想要入门并深入掌握Apache Flink、流计算的同学、希望大数据系统参考教材的老师以及想要了解最新Flink版本应用的从业人员。 当然,因为水平所限,行文以内容难免错误,请大家见谅,并予以反馈,笔者会在后续的版本重构中不断提升内容质量。
- 《Python爬虫技术》 (3007次下载)
- 《Spark实用教程_scala语言》 (261次下载)
- 《Flink实用教程_scala和python双语版》 (84次下载)
- 《PySpark实用教程_python语言》 (44次下载)
- 《Spark机器学习_scala语言》 (15次下载)
挣积分
用户可以上传项目资源到本站,我们会根据资源的质量和价值计算积分给用户。
用户可以使用自己账号下的积分换取本站VIP资源(教程、项目、图书等)。
请联系我们
- Email:zz_kapper@163.com
- QQ:185314368(张老师)