当前位置: 首页 > news >正文

堪萨斯大学新研究:揭示读唇出错原因,有望提升读唇训练与AI转录能力

研究揭示读唇奥秘

堪萨斯大学(University of Kansas)的研究人员发现,英语中约有三分之一的单词在发音时看起来至少与另一个单词相似。

研究背景与目的

2026年6月30日消息,堪萨斯大学的一项新研究运用网络科学,探究了人们读唇时出错的原因。言语语言听力专业的教授Michael Vitevitch及其合著者绘制了一张包含约20000个英语单词的视觉地图,旨在更好地理解为何有些单词比其他单词更难通过读唇识别。研究结果发表在《美国声学学会杂志》(Journal of the Acoustical Society of America)上,这些发现有望改进读唇训练方法,提升人工智能读唇、转录及提供其他数字服务的能力。

研究方法的独特之处

Michael Vitevitch表示,以往很多研究只关注人们读唇的准确率,而没有深入研究错误本身的特征。他们采用的研究方法是关注人们读唇的错误类型。此前关于读唇的研究大多由口语研究人员开展,主要关注音素以及参与者识别的单词与实际发音的接近程度。而Vitevitch关注的是视觉特征,即“视位”(visemes,音素的视觉等价物),专注于从嘴唇、下巴和嘴巴获取信息,不借助听觉。他举例说,有时候单词发音和视觉上都相似,比如“kit”、“cat”和“cut”;而有时候单词发音不同,但视觉上相似,比如“vet”、“fit”和“fuzz”,在这两种情况下,仅通过观察面部,无法区分这些单词。

研究得出的结论

通过对单词地图的分析,研究人员得出以下结论:一是人们更有可能将一个单词误认成另一个更常用的单词;二是发音时,英语中约三分之一的单词看起来至少与另一个单词相似;三是如果一个单词有很多视觉上相似的单词,那么读唇识别它就会更困难;四是读唇错误并非随机发生,当视觉上相似的单词在视觉网络中处于同一区域时,出错的可能性更大。Vitevitch还指出,令人惊讶的是,人们读唇的能力并不强,大多数错误表明,只差一两个视觉特征(即一两个视位)就能正确识别,能获取很多信息,但可能还不足以准确识别单词。

研究成果的应用与后续计划

研究人员绘制的视觉地图让他们了解了单词在视觉空间中的分布情况,某些区域的单词分布比预期更密集,视觉空间的拉伸和压缩方式超出了预期,这种拉伸和压缩对读唇的准确性有影响。Vitevitch团队希望将研究成果应用于读唇训练,跟踪人们随时间推移所犯的错误,让错误逐渐接近目标单词。此外,这项研究的另一个应用领域是自动转录训练,像Zoom这样的系统在语音转录方面已经做得不错,如果它们不仅利用音频信息,还利用说话者面部的视觉信息,是否能做得更好呢?Vitevitch表示,他的团队将以不同方式继续跟进这项研究,继续探索人们读唇的方式,有可能朝着机器学习应用方向发展,并寻找帮助那些需要辅助理解语音的人的方法。Vitevitch的合著者包括堪萨斯大学的研究生Maia Flynn和Reid Kelly,以及弗雷斯诺加利福尼亚州立大学(California State University, Fresno)的Lorin Lachs。

http://www.gsyq.cn/news/1637659.html

相关文章:

  • 小模型回到电脑本地,数据安全就自动解决了吗?
  • 一颗Codec芯片的生存法则:为什么AI语音产品需要TP9311?
  • 图像哈希算法(aHash/dHash/pHash)Python实战:3种方法对比与汉明距离阈值调优指南
  • 每个按键都能单独屏蔽!这款免费小工具,治好了我的误触强迫症
  • 生命涌现的小龙虾技能之【Cat Face Recognition Skill | 猫脸识别技能】简介
  • 虚拟化技术深度解析:从底层原理到产业实践,读懂云计算的核心基石
  • ARIMA 模型定阶实战:基于 ACF/PACF 图的 4 种典型模式识别与 p, q 值选择
  • CubeSandbox 线下体验
  • 电脑磁盘分区|C盘爆红|实现过程中出现的问题并解决
  • mcntools - Minecraft 模组 JAR 文件硬编码翻译工具
  • GitHub 热榜项目 - 周榜(2026-07-04)
  • 机器人5公里长跑背后的技术:强化学习与模型预测控制如何实现动态平衡
  • 企业微信会话存档SDK实战——跨平台部署与动态库加载避坑指南
  • 牛计数数据集 | 3300张YOLO智慧畜牧数据集
  • YOLOv8与卡尔曼滤波融合:构建实时目标检测与跟踪系统
  • 英伟达AI Compute Partnership:从“卖铲人“到“收租人“的算力金融化革命
  • Codex桌面客户端:零代码接入DeepSeek等大模型,打造本地AI助手
  • CubeSandbox 快照、克隆、回滚部署实操体验|OC城市行深圳站
  • 剑星 全内容 中文全DLC 脱离虚拟机 即点即玩
  • 我在腾讯云 CVM 上实操 CubeSandbox:从部署到体验快照、克隆和回滚分享
  • 好无聊上班的一天
  • 学习嵌入式Day3
  • 从粉丝项目到技术实践:构建自动化内容管理流水线
  • 实战指南:如何用开源工具永久保存你的QQ空间数字记忆
  • 救命!UniApp上架App Store踩4.3a红线,我靠这招3天逆袭过审了[特殊字符]
  • Fable 5复活引争议!“内心戏”暴露,AI意识大讨论升温!
  • 基于大数据爬虫+Hadoop用户偏好迁移的电影推荐系统
  • 斯坦福CS231n计算机视觉课程:从理论到Kaggle实战的完整指南
  • eclipse ditto 学习笔记
  • 完美搞定微博,2026 批量下载微博内容/图片/视频,导出word和pdf,微博内容发布时间链接/点赞/评论/转发等数据导出excel