当前位置: 首页 > news >正文

【赵渝强老师】Spark Streaming中的DStream

1

​要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

image.png
点击这里查看视频讲解:【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

2

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

http://www.gsyq.cn/news/108751.html

相关文章:

  • STM32模拟I2C驱动SD3078的程序
  • 2026年浙江AI搜索营销优化公司权威盘点:十大知名机构深度解析 - 速递信息
  • 友达 G185HAN01.100 工业液晶显示屏:18.5 英寸宽温高色域场景的显示驱动技术解析
  • 友达 G185XW01 V1 工业液晶显示屏:18.5 英寸宽温高响应场景的显示驱动技术解析
  • 友达 G185XW01 V201 工业液晶显示屏:18.5 英寸宽温高响应场景的显示驱动技术解析
  • 中科院工程师分享:用Unsloth打造推理增强大模型|低显存、高推理、可复用
  • 小白大模型课程30分钟:从认知到进阶之路
  • FlutterFire Remote Config用户细分实战:精准触达不同用户群体
  • 软件测试中的等价类划分与边界值分析法:原理、实践与演进
  • Rust UI框架选择指南:从需求出发的深度对比
  • Jellyfin界面大改造:告别单调,打造专属媒体中心
  • 2025论文季AI工具实测:避开代写陷阱,这款免费辅助工具太省心
  • 25、深入探索Shell交互与非标准特性
  • Apache Mesos运维实战:集群管理完整指南与故障处理方案
  • 全新升级丨博为自主可控新一代消防信息传输控制单元!
  • RocketMQ 新手入门:10分钟搞定项目集成与基础使用
  • 收藏!2025中国大模型市场全景解析:规模破290亿,竞争梯队+核心玩家一文看懂(小白程序员必学)
  • IDEA提示Untrusted Server‘s certificate
  • 红杉资本 · 合伙人团队:AI的万亿美元级机会(主题演讲 2)
  • 3个关键步骤实现SVG动画加载:Glide图片缓存技术深度解析
  • 深入解析:人工智能与自动化:重塑未来工作的方式与意义
  • 偏头痛治疗靶点ADCYAP1
  • ‌智慧校园平台性价比评估指南:实用思路与落地方法‌
  • 微前段框架解决方案,零基础入门到精通,收藏这篇就够了
  • 桌面一直显示“正在启动”!
  • 2025年12月新疆旅游团推荐:十大旅行社综合实力排行榜单评测分析 - 品牌推荐
  • 可怕!博士生偷偷破坏同组同学实验2年多,导师用隐藏摄像头才发现……
  • PMP22基因变异如何导致遗传性周围神经病?
  • Spring技术栈的十字路口:虚拟线程时代,WebFlux与WebMVC的终极选择
  • 2025年优质不锈钢热轧板现货供应商权威推荐榜单,不锈钢热轧板/不锈钢冷轧板/不锈钢冷热轧卷/不锈钢热轧板直销厂家有哪些 - 品牌推荐师