视频名称
处理重复的流数据
视频内容
您还未登录!(正式会员登录可观看)
视频简介
【PySpark原理深入与实战】配套精讲视频
当数据源多次发送相同的数据时,实时流数据中的数据就会产生重复。在流处理中,由于流数据的无界性,去除重复数据是一种非常具有挑战性的任务。
不过,PySpark结构化流使得流应用程序能够轻松地执行数据去重,因此这些应用程序可以通过在到达时删除重复的数据来保证精确一次处理。
处理重复的流数据
您还未登录!(正式会员登录可观看)
【PySpark原理深入与实战】配套精讲视频
当数据源多次发送相同的数据时,实时流数据中的数据就会产生重复。在流处理中,由于流数据的无界性,去除重复数据是一种非常具有挑战性的任务。
不过,PySpark结构化流使得流应用程序能够轻松地执行数据去重,因此这些应用程序可以通过在到达时删除重复的数据来保证精确一次处理。