当前位置: 首页 > news >正文

Ali-tianchi news:all

一、Dataoffline线下从分离数据集构造验证集检验效果valid线上特征工程√召回和排序模型的参数已经调优完毕后对全部数据使用1.1 offline 离线划分留一法从训练集随机筛选50,000 个用户作为离线验证集用户将他们交互流中的最后1条点击剥离作为验证目标其余交互回填入大盘日志用来做特征和召回计算df_click:留一法剩余训练集测试集全部行为按user_id,click_timestamp排序df_query留一法测试集[user_id, click_article_id]→\rightarrow→test集click_article_id-11.2 validdf_click:训练集测试集全部行为按user_id,click_timestamp排序df_query测试集[user_id, click_article_id]→\rightarrow→test集click_article_id-1二、itemcf 召回u-点击i-相似i2.1 cal_sim相似度矩阵计算遍历所有用户的历史点击序列计算出文章与文章之间的相似度矩阵WWWSim(i,j)∑u∈Ui∩Ujα⋅0.9∣loc2−loc1∣−1log⁡(1∣Iu∣)∣Ui∣⋅∣Uj∣\text{Sim}(i, j) \frac{\sum_{u \in U_{i} \cap U_{j}} \frac{\alpha \cdot 0.9^{|loc2 - loc1| - 1}}{\log(1 |I_u|)}}{\sqrt{|U_i| \cdot |U_j|}}Sim(i,j)∣Ui​∣⋅∣Uj​∣​∑u∈Ui​∩Uj​​log(1∣Iu​∣)α⋅0.9∣loc2−loc1∣−1​​∣Iu∣|I_u|∣Iu​∣用户u的总点击新闻数Ui∣Ui∣U_i|U_i|Ui​∣Ui​∣点击了新闻事件iii的用户集合总数量user_item_dict字典按照用户id分组聚合{user_id:click_article_id序列}基础相似度计算对于同一用户序列中的文章ijijij对应距离下标loc1loc2loc1loc2loc1loc2新闻具有单向兴趣流转特征loc2loc1loc2 loc1loc2loc1先点iii后点jjj方向权重α\alphaα 1反之 0.7。惩罚1位置距离衰减同一序列2篇文章离得越远相关性越低0.9(∣loc2−loc1∣−1)0.9^{(|loc2 - loc1| - 1)}0.9(∣loc2−loc1∣−1)惩罚2用户活跃度惩罚点击过多新闻的用户水军贡献低分母除以log⁡(1∣Iu∣)\log(1 |I_u|)log(1∣Iu​∣)来打压。余弦相似度归一化使用传统的协同过滤归一化公式进行平滑消除热门偏置Sim基础∣Ui∣⋅∣Uj∣\frac{Sim_{基础}}{\sqrt{|U_i| \cdot |U_j|}}∣Ui​∣⋅∣Uj​∣​Sim基础​​返回sim_dict物品间相似度字典, user_item_dict用户-物品字典{user_id:click_article_id序列}sim_dict{当前文章_A: {关联文章_B: 0.334, 关联文章_C: 0.125}}2.2 多进程并行化近邻召回触发异步多进程multitasking召回 recalldf_query双击近邻策略最近兴趣截断逆序截断只取出用户最近点击的2 个文章作为特征传导位置衰减相似度累加对最近 2 个文章分别从矩阵中召回与之最相似的200个文章。先应用0.7loc0.7^{loc}0.7loc进行位置衰减再累加得分。最终取Top 100个文章。打标签 (Labeling)valid判断召回的文章是否等于用户真正的下一跳是则标记 label1其余为 0。online真实标签统一初始化为占位符 NaN。得到df_data[user_id, article_id, sim_score, label]2.3 多进程合并离线评估for 留一法的测试集 进行离线闭环评估ItemCF 单路召回在验证集上的HitRate5\text{HitRate}5HitRate5、MRR5\text{MRR}5MRR5到HitRate50\text{HitRate}50HitRate50等多维核心指标三、binetwork 召回四、w2v 召回五、召回合并六、排序特征七、lgb模型训练八、指标计算
http://www.gsyq.cn/news/1409141.html

相关文章:

  • 基于 okbiye 的 AI 期刊论文写作实践:从普通刊到 SCI 的全场景辅助路径
  • 拯救老系统:手把手教你在macOS Ventura/Sonoma上配置金蝶EAS 8.2客户端
  • Windsurf 完整实战教程
  • STM32F4 HAL库开发 -- DMA实战:从零构建高效串口数据搬运工
  • 新手避坑指南:在Ubuntu 22.04上用virt-manager创建虚拟机时,我遇到的3个权限问题和解决方法
  • 618要买什么?盘点2026年闭眼入不踩坑的内衣洗衣机品牌!海尔、希亦、小米等十款王者级别的内衣洗衣机
  • OPC中国未来五年的发展方向
  • C语言字符串API大全!9个核心函数速记,零基础编程入门必备
  • 荣耀出征官方网站下载三端正版:战盟体系玩法与贡献收益最大化指南
  • FPG财盛国际:投教支持与服务响应表现解析
  • 即时通讯软件厂家:为企业定制通信基座
  • 重庆思庄技术分享——Oracle v$option 大量组件显示 FALSE
  • 为团队统一配置Taotoken CLI工具提升开发效率
  • 告别熬夜改论文!okbiye AI 写作,让毕业论文从开题到定稿一键通关
  • 基于 okbiye 的 AI 论文写作实践:毕业论文从选题到定稿的高效路径探索
  • 别再只盯着皮尔逊了!用Python实战斯皮尔曼相关系数,搞定非线性数据关联分析
  • 钉钉消息防撤回补丁PC版:完整指南与高效使用技巧
  • 2026年5月靠谱的西安一体板砂浆厂家找哪家厂家推荐榜——粘结砂浆、抹面砂浆、防水砂浆、勾缝砂浆厂家选择指南 - 海棠依旧大
  • 避坑指南:Scanpy数据过滤与标准化,这几个参数设置错了等于白做
  • 产品经理的AI学习路径:从入门到精通
  • ChatGPT规则解释准确率暴跌41%?——来自IEEE Games 2024实验报告的3个未公开训练盲区与Prompt免疫写法
  • ESP32-S3边缘AI能耗预测:3天数据实现月度精准预测
  • 2026年5月更新:深度解析雪镜制造厂背后的技术实力与选择逻辑 - 2026年企业资讯
  • 从Excel趋势线到机器学习:最小二乘法在数据分析中的实战避坑指南
  • 告别玩具数据集!用MVTec AD手把手教你搞定工业缺陷检测(附Python代码实战)
  • 2026年5月工控主板厂家推荐:靠谱品牌TOP10高性价比测评解析
  • 我为什么想把 SeaTunnel 做得更好用(7):被忽略的数据同步体验
  • 保姆级教程:在Ubuntu Server 22.04上搞定图形桌面和VNC远程连接(含RealVNC配置)
  • NVIDIA Profile Inspector:解锁显卡隐藏性能的专业工具指南
  • Claude Code vs Cursor实测:AI大模型与深度学习加持下,谁能在复杂工程任务中跑赢30%提效指标?