当前位置: 首页 > news >正文

基于图像检索的智能菜谱匹配技术

使用食物图像查找烹饪食谱

一种基于Transformer架构并采用自监督学习训练的新方法实现了最先进的性能。

技术方法

该方法使用两个独立的编码器函数,一个用于处理食谱文本,另一个用于处理图像(下图左右两侧)。这些函数提取的表征将在推理时用于索引和搜索。为了编码食谱组件,研究人员采用了基于Transformer的架构:对于多句子输入(如配料和步骤说明)使用分层架构,对于单句子输入(如食谱标题)使用非分层架构。对于图像输入,则使用成熟的图像编码器ResNet和Vision Transformer。

研究人员使用两种不同的损失函数训练食谱检索模型:自监督损失函数Lrec和监督损失函数Lpair,后者测量食谱文本和食物图像表征在共享空间中的距离。

训练过程

监督损失Lpair在从食谱(左侧)和图像(右侧)提取的表征之间计算。该损失确保如果文本和图像表征属于同一训练样本(例如巧克力曲奇的图像及其对应的食谱文本),它们在共同的高维空间中彼此接近;否则则远离(例如相同的巧克力曲奇图像和千层面食谱文本)。

新颖的自监督损失Lrec在单个食谱组件的表征之间计算。该损失确保如果食谱组件(例如标题和配料)属于同一食谱,它们在表征空间中彼此接近;否则则远离(见下图)。直观地说,通心粉和奶酪食谱的标题与其配料名称(通心粉、洋葱、帕尔马干酪等)共享语义线索,这能使模型学习更好的食谱表征。

由于该损失不需要图像作为输入,因此可以在没有图像的训练样本上计算,这在网络食谱数据中非常常见;实际上,训练集中66%的样本是仅包含文本的食谱样本。实验表明,新的自监督损失项(即使仅应用于图像-食谱训练对)和额外的训练数据都有助于提高检索性能。

实验结果

在实验中,研究人员执行了双向跨模态检索:查找匹配图像的食谱和匹配食谱的图像。该方法在Recipe1M数据库(该领域的常用基准)上展示了最先进的性能。在图像到食谱检索任务中,当在包含1,000个元素的食谱数据库上搜索时,该方法实现了92.9%的Recall@10。这意味着给定包含1,000个食谱的数据库和1,000个食物图像查询,该方法能够为92.9%的图像查询在检索到的前10个结果中找到正确的食谱。

下图展示了一些定性结果,表明该方法能够编码图像和食谱表征中的语义,并能在细粒度配料级别找到匹配查询的食谱(例如第一行中的"面包"、"大蒜"和"面包块",或第六行中的"鲑鱼"和"芦笋")。

研究人员已公开提供代码和模型权重供进一步研究使用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.gsyq.cn/news/63482.html

相关文章:

  • 全自动家用咖啡机推荐:主流品牌特点及用户反馈
  • 家庭全自动咖啡机品牌排行 热门家用品牌推荐
  • 不同基础如何备赛?犀牛国际教育物理碗培训全攻略
  • PHP Fiber 优雅协作式多任务
  • 2025 AMC竞赛培训机构排名前十强,多维度深度评测指南
  • AcWing 4205:树的增边 ← 二分图 + 染色法
  • 降ai率工具哪个好?多维度评测推荐
  • AI写论文工具推荐:2025年高效辅助平台盘点
  • 2025年知名的ENF级除醛母婴板厂家最新实力排行
  • 2025年知名的空压机/汉钟空压机高评价厂家推荐榜
  • 2025年质量好的顶装挂衣杆/加厚挂衣杆厂家选购指南与推荐
  • 2025年比较好的任意切柜内灯实力厂家TOP推荐榜
  • 2025年口碑好的衣柜拉手厂家推荐及选购参考榜
  • 大概率上涨股票202511280630
  • 自动推理如何提升视频体验
  • 2025年下半年探水钻机品牌综合评估与选购指南
  • 2025年下半年履带钻机品牌综合推荐指南:十大优质供应商盘点
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度-- 有用 - MKT
  • 水产养殖设备厂家直销哪家好,杭州奥流科技有限公司权威推荐
  • 2025杭州电商税合规服务公司+杭州税审公司哪家好权威推荐
  • 关于k8s调度、安全、监控的进阶操作
  • Codeforces Round 1051 (Div. 2) 补题记录
  • Motia:未来平台
  • DC-2渗透测试 - fish666
  • k8s基本对象详解
  • BLOG迁移: 从Halo + CF Tunnel 到 Hugo + github + Cloudflare page
  • API设计最佳实践 - 智慧园区
  • 第4单元检测卷
  • ubunutu连接蓝牙键盘鼠标
  • 详细介绍:从 1.0 到 13.0:C# 十八年进化史,一部写给开发者的语言成长记