当前位置：首页 > news >正文

sra_benchmark数据集指南：如何准备Criteo-Kaggle和Taobao数据集进行搜推模型测试

news 2026/6/29 8:23:38

sra_benchmark数据集指南：如何准备Criteo-Kaggle和Taobao数据集进行搜推模型测试

【免费下载链接】sra_benchmarkBenchmark for the Kunpeng SRA项目地址: https://gitcode.com/openeuler/sra_benchmark

前往项目官网免费下载：https://ar.openeuler.org/ar/

sra_benchmark是openEuler社区推出的面向Kunpeng SRA架构的搜推模型基准测试工具，支持Criteo-Kaggle和Taobao等主流数据集的快速部署与性能评估。本文将详细介绍如何准备这两类数据集，帮助新手用户快速上手搜推模型测试。

为什么选择Criteo-Kaggle和Taobao数据集？

在搜推模型开发中，高质量的数据集是确保测试准确性的关键。Criteo-Kaggle和Taobao数据集凭借其丰富的特征维度和真实业务场景，成为业内广泛使用的基准测试数据集：

Criteo-Kaggle：包含13个密集特征和26个稀疏特征，覆盖用户行为、广告点击等核心推荐场景，数据量达1TB级，适合大规模模型训练测试。
Taobao：包含用户历史行为序列、商品属性等电商场景特征，支持序列推荐模型的性能评估，贴近真实业务需求。

图：sra_benchmark支持的搜推模型特征交互架构，适用于Criteo-Kaggle和Taobao数据集的特征处理流程

快速准备Criteo-Kaggle数据集

数据集基本信息

Criteo-Kaggle数据集包含以下特征类型（详细定义见modelzoo/features/pmem/criteo.py）：

13个密集特征（如用户点击次数、广告展示次数等）
26个稀疏特征（如用户ID、商品类别等，已进行哈希匿名处理）

数据集下载与预处理步骤

下载原始数据
通过Criteo官方网站获取数据集（需注册账号）：
```
wget https://ailab.criteo.com/download-criteo-1tb-click-logs-dataset/
```
数据格式转换
使用sra_benchmark提供的预处理工具将原始数据转换为TFRecord格式：
```
python modelzoo/features/pmem/criteo.py --data_dir ./data/criteo --batch_size 1024
```
数据集划分
工具会自动将数据划分为训练集（train/）和验证集（val/），存储路径结构如下：
```
./data/criteo/ ├── train/day_0_0.dat └── val/day_0_0.dat
```

轻松构建Taobao数据集

数据集特点与应用场景

Taobao数据集适用于序列推荐模型测试，如DIEN、DIN等（模型实现见modelzoo/dien/、modelzoo/din/），包含用户历史行为序列、商品属性等时序特征。

自动化数据准备流程

sra_benchmark提供了一键式数据准备脚本modelzoo/dien/data/prepare_data.sh，执行以下命令即可完成数据下载与预处理：

cd modelzoo/dien/data bash prepare_data.sh

脚本将自动完成以下步骤：

下载Amazon Books数据集（替代Taobao公开数据集）
数据清洗与格式转换（script/process_data.py）
用户行为序列构建（script/history_behavior_list.py）
负样本生成（script/generate_neg.py）

数据集在模型测试中的应用

训练与推理吞吐量测试流程

准备好数据集后，可通过sra_benchmark的吞吐量测试工具评估模型性能。测试流程如下：

图：基于sra_benchmark的训练与推理吞吐量测试完整流程，支持Criteo-Kaggle和Taobao数据集

关键测试脚本使用

训练吞吐量测试

python modelzoo/train_throughput_test.py --dataset criteo --model deepfm

推理吞吐量测试

python modelzoo/inference_throughput_test.py --dataset taobao --model dien

测试结果将自动保存至对应模型目录的result/文件夹，如modelzoo/deepfm/result/。

常见问题与解决方案

数据下载速度慢：建议使用国内镜像源或提前下载至本地存储
预处理内存不足：调整config.yaml中的batch_size参数
特征维度不匹配：检查数据集路径是否正确，确保与modelzoo/features/中的特征定义一致

通过本文指南，您已掌握sra_benchmark中Criteo-Kaggle和Taobao数据集的准备方法。合理利用这些数据集，可有效评估搜推模型在Kunpeng SRA架构上的性能表现，为模型优化提供数据支持。

【免费下载链接】sra_benchmarkBenchmark for the Kunpeng SRA项目地址: https://gitcode.com/openeuler/sra_benchmark

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.gsyq.cn/news/1600362.html

C链接库，联动 Rust、Golang、Python

sysSentry监控数据分析：如何利用巡检结果优化系统运维策略

半导体设备（光刻 / 刻蚀 / 离子注入）纯技术专家线晋升 CTO 完整岗位阶梯

CP-17 SOME/IP协议栈深度解析 - 面向服务的车载中间件从协议原理到AUTOSAR工程实战

RePKG终极指南：轻松解包Wallpaper Engine资源，释放创意无限可能

解锁网盘下载新姿势：告别龟速，拥抱极速下载体验

TMSpeech：Windows离线语音转文字的终极解决方案

游戏性能提升神器：DLSS Swapper终极指南免费解锁显卡隐藏性能

360天擎终端安全管理：远程批量运维与安全防护实战解析

Selenium自动化测试：ChromeDriver版本管理策略与实战

空洞骑士模组管理器Scarab：2024年终极安装与管理指南

5分钟搞定：让Blender无缝支持3MF格式的终极解决方案

HsMod终极指南：55项功能全面增强你的炉石传说游戏体验

移动自动化新范式：mobile-mcp协议如何实现跨平台统一测试

终极指南：如何用ROFL-Player轻松分析英雄联盟回放文件

HS2-HF_Patch：一站式终极汉化与百款插件深度解决方案

如何在5分钟内将Chrome打造成专业的Markdown阅读器？终极效率提升方案

MCP与零信任融合架构的7大高危漏洞与安全加固实战

圆偏振光技术深度解析：如何让光线更柔和——悟赫德护景贴观复盾的光学实践

EhViewer完整使用指南：从零开始打造你的个性化漫画阅读体验

终极宝可梦随机化指南：5步掌握Universal Pokemon Randomizer ZX的完整功能

SAP STO交货单库位缺失的实战修复：BAPI_OUTB_DELIVERY_CHANGE 精准补位指南

深度解析EasyOCR：如何实现80+语言的高精度文字识别实战指南

5个颠覆性技巧：用EhViewer重塑你的漫画阅读体验

3个核心技巧：用NsEmuTools彻底改变NS模拟器管理体验

软考等级划分不是考试而是职业分水岭：1个公式算清你的报考层级、3年晋升周期、5倍薪资跃升逻辑

HS2-HF补丁：全面解锁Honey Select 2游戏体验的终极解决方案

使用SOPS与Rsync实现配置文件加密同步与安全管理

pytest自动化测试面试全解析：从核心概念到工程实践

2026年学 Python 量化，先做一个可验证小流程