当前位置: 首页 > news >正文

数据_数据截取

怎样截取数据

1.窗口分类
看作是一种对数据进行均匀切片的划分方式
看作是数据 遍历的一种方式
Windows窗口的方式
窗口大小(Windows size)+ 滑动步长(Windows slide )
窗口大小-- 窗口的开始(start)和结束(end)
窗口步长-- 窗口的统计频率
时间窗口和计数窗口
时间窗口--Event Time和Processing Time两种时间属性
基本的内容--滑动窗口
滑动-滚动-跳动
会话窗口 --会话超时失效的机制来描述窗口。当它在一个固定的时间周期内不再收到元素,即会话断开时,该窗口就会关闭
活动间隙
会话窗口只能基于时间来定义,间隔时间(Gap)来配置,这个间隔定义了非活跃周期的长度,
如果数据在指定的间隔(Gap)之后到达,则会开始一个新的窗口
会话超时时间的长度 size 即相邻两个数据到来的时间间隔(Gap)
Watermark 来进行关窗
2.窗口计算
01.计算方式--分组流(keyed streams)和无分组流(non-keyed streams)两种
按键分区窗口 (Keyed Window) 不分组窗口 (Non-Keyed Window)
边界填充(Padding) 步长(Stride)

实现和应用

滑动窗口计算,最容易想到的就是用两层for循环来实现
window_sequences = [data[i:i+window_size] for i in range(0, len(data)-window_size+1, slide_step)]
shape
叠被子-- 窗口大小--滑动步长()
算速度--窗口的方式--匀加速或者匀减速的假设条件
计算异常点

数据分组计算

任务并行 (Task Parallelism 指在多个不同任务上并行地执行。任务并行的核心思想是将整个任务划分成多个独立或相互依赖的子任务
数据并行 (Data Parallelism) 运行 同一批数据的 不同子集--数据被划分成多份,然后将每份数据分配到不同的计算节点上
数据分区(Data Partitioning)
范围分区(Range Partitioning) 哈希分区(Hash Partitioning) 列表分区(List Partitioning

传统数据库窗口函数

OVER窗口(OVER Window)是传统数据库的标准开窗,
Group By Window
01. 分组排名 (ROW_NUMBER() / RANK() / DENSE_RANK())
此操作用于在每个分组内对数据进行排序并编号(常用于求各组内的 Top N 数据
02. 组内聚合 (SUM() / AVG() / MAX() / MIN())
03.lag() 与 lead() 操作的数据都在 over() 的范围内,他里面可以使用 partition by 语句(用于分组) order by 语句(用于排序)。
partition by a order by b 表示以 a 字段进行分组,再 以 b 字段进行排序,对数据进行查询

存储

数据模型
structural encoding:
决定嵌套结构、null、offset、repetition/definition 等结构信息如何落盘

compressive encoding:
决定具体值如何压缩,比如 bit packing、FSST、dictionary、LZ4

示例
Parquet 会把嵌套结构 flatten 成 leaf columns。
每个 leaf column 包含 values、repetition levels、definition levels,并按 page 组织

http://www.gsyq.cn/news/1442070.html

相关文章:

  • 济南钻石回收 2026 渠道盘点,筛选靠谱商家实用技巧 - 薛定谔的梨花猫
  • 如何快速掌握AiZynthFinder:化学合成路径规划的终极指南
  • 20251912 2025-2026-2 《网络攻防实践》实践十一报告
  • STM32CubeMX配置FreeRTOS的隐藏细节:从点灯任务看堆栈分配、优先级与看门狗的那些坑
  • 江浙沪CNC培训机构怎么选:2024年普工转岗技术岗选校指南 - 资讯焦点
  • 航拍图像分割新思路:用MANet搞定多尺度目标识别(附论文精读与核心模块拆解)
  • 技术团队如何构建语音交互能力:从架构设计到实战落地
  • 30天掌握Kaggle机器学习竞赛:数据分析实战终极指南
  • 3步搞定:QQ群数据批量采集终极指南
  • 老板演说培训机构那个好 - GrowthUME
  • 别再只看Ct值了!手把手教你从qPCR试剂盒的Buffer、dNTP和酶活看懂真实性能
  • ssm222培训学校教学管理平台+vue(文档+源码)_kaic
  • Sora 2与H.266/VVC实测对比:在AI生成视频场景下,压缩效率反超19.3%,但需规避这5类语义敏感帧——国家级AIGC平台内部基准测试报告首次公开
  • 如何快速搭建个人漫画图书馆:哔咔漫画下载器完整指南
  • Java Swing实战:构建交互式计算机知识卡片游戏
  • 全国铝板厂家怎么选?建筑工程铝板优质生产企业 - 深度智识库
  • 为什么92%的新闻编辑部在Sora 2上线首月就暂停试用?——一线记者亲测的4类事实性幻觉及实时纠偏方案
  • 从村民交易到自动合成:手把手教你用Minecraft命令打造专属RPG服务器(含1.20+版本适配)
  • VS2019/2022安装Visual Assist番茄助手踩坑实录:从安装失败到完美运行的避坑指南
  • 2026宁波拉链批发多品牌现货供应链实测:YKK/SBS/SAB等主流品牌货源对比与避坑手册 - 企业名录优选推荐
  • Sora 2虚拟主播视频从Prompt到商用交付仅需11分钟:某省级广电集团内部SOP流程图首次流出,
  • 流放之路中文版角色构建神器:PoeCharm让BD规划变得如此简单
  • 基于ESP32的硬件加密保险箱:低成本实现超级加密与HMAC完整性验证
  • BEVFusion vs. 传统融合:当激光雷达点云“丢失”时,你的自动驾驶系统还能“看见”吗?
  • Sora 2信息图表动画落地全流程:从脚本拆解→分镜编排→AI渲染→交付优化(附2024最新参数白皮书)
  • ssm230电子设备销售网站的设计与实现+vue(文档+源码)_kaic
  • 创佳投票 vs 云帆投票 vs 问卷星,投票链接制作平台选哪个? - 深度智识库
  • 在RT-Thread Studio环境下,手把手教你为STM32F103打造一个稳定的内部Flash驱动模块
  • 别再手动点云控制台了!用Terraform管理阿里云ECS和VPC的保姆级实战
  • 武汉收纳团队推荐:拒绝各类隐形消费,让专业收纳改变你的生活 - 土星买买买