当前位置: 首页 > news >正文

信息检索11-语言模型 - 实践

token化后可能有顺序可能无序

无序为词包模型

布尔检索-共现矩阵(无序)

向量空间模型-换为tf-idf权重

概率模型-对tf-idf的权重进行调整,bm25

主题模型-稀疏向量变为稠密向量,但仍为词包模型

若考虑顺序,用语言模型

2.语言模型

根据语言客观事实对语言进行数学建模

通过句子空间:把所有句子采集起来,句子空间的分布能够描述出来

在句子空间中,每个句子出现的概率和为1

语言模型为计算模型,判断一个文本序列是不是像一个合理的句子,衡量文本出现的可能性或概率

应用:拼写纠错(错误句子出现概率小),语音识别,句子转换

(这里是2-gram,后续会讲)

核心任务:计算一个句子的概率,实际上是该序列的概率(通过链式法则)

链式法则:联合概率可以表示为一系列条件概率的乘积

训练时,要估计右边所有的参数

有估计参数的不同方法

3.统计语言模型

实现语言模型的具体方法,从概率论视角,从大量数据来估计文本序列中的参数

核心思想:一个词出现的概率依赖于它们前面出现的几个词

存在的疑问:

直接算一个长句子,维度灾难问题,用链式法则、马尔可夫假设

马尔可夫假设:一个词典概率只依赖于它前面的有限个词

n-gram语言模型

第n个词只考虑前面的n-1个词

unigram相当于词包模型

偏向常见的,这种几个词在一起的组合变少,概率为0,出现零概率问题,有一些消除方式,这些办法导致参数不可靠就是n较大时,为什么参数估计不可靠?n大时需要几个词在一起的计数,这个计数可能不存在,缘于单词出现符合幂律分布,虽然语料库变大但词还

这些解决方式有(不包括增加语料库,因为词还是幂律分布):平滑技术

平滑技术

n-gram模型的优缺点:简单直接,易建立,可解释性强,计算高效;

数据稀疏(未出现的词需用平滑工艺处理,还是稀疏

上下文局限,缘于有窗口,捕捉的是短距离的词

缺乏语义理解,基于计数实现,没有语义关系

4.神经网络语言模型

词语之间的相似度:上下文共现;语法相似

共线关系更鲁棒,语法关系更精确

NNLM

没有解除长度的依赖关系

(这个课程不需要记训练、损失函数等)

在emb处降维,通过节点控制,进行了单词的降维

拼在一起,保留顺序

文档向量化

处理:循环神经网络?

神经网络语言模型的核心思想:用词向量来表示每个词

优势

(也可能推测错误,这就是幻觉问题)

5.Word2Vec / Doc2Vec

词向量和文档向量直接做内积

word2vec(这是方法)

CBOW continuous Bag of words model

词向量相加,此时在这个范围内位置没有关系(局限性)

连续:指的是连续特定窗口的上下文词

它不是语言模型

但是我们这个过程中可以得到词的emb

word2vec本身也有缺点

训练和实际的语料库要同分布

Doc2Vec

把变长句子变为定长向量

段落向量模型:得到橙色的参数矩阵(用id的向量表示该段落,在训练时id维度为段落数,会降维到与其他词相同)

gensim

检索流程

优点

处理词汇鸿沟难题: 能够关联不同词语但表达相同概念的情况。

语义理解能力强: 这是最大的优点。 例如,查询“苹果手机”, 传统的BM25算法可能无法召回只包含“iPhone”但不包含“苹果”的文档。 Word2Vec/Doc2Vec模型,“苹果”和“iPhone”的向量会很接近,从而能够成功匹配。

对短文本查询友好: 即使查询很短,只要其中的词语语义明确,也能找到相关文档。(社交媒体之类)

缺点与挑战

http://www.gsyq.cn/news/79481.html

相关文章:

  • 2025年上海离婚房产律师推荐排行榜,哪个好?哪个靠谱?选哪个?网站网址及联系电话
  • 2025年上海婚姻律所推荐排行榜,哪家好?哪家靠谱?选哪家?网站网址及联系电话
  • 2025年双片钉箱机优质厂商综合实力推荐,目前双片钉箱机产品推荐赋能企业生产效率提升与成本优化
  • AQS总结
  • 安防监控/录像存储EasyCVR视频汇聚平台无法启动的原因排查
  • 高端展厅设计公司推荐:国内优质服务商盘点
  • 深圳alevel机构哪里好?本地优质教学机构推荐
  • GB28181设备接入EasyCVR视频汇聚平台视频流异常的原因排查
  • 超级学长雅思培训怎么样?国内雅思培训机构口碑解析
  • 珠三角聚合物锂电有哪些?行业主流企业及产品解析
  • 你的手机正在偷跑 AI 训练?分布式计算革命来袭 - 详解
  • 2025预糊化淀粉厂家实用推荐:5 家靠谱厂家助力降本增效​
  • CentOS使用chrony同步时间
  • 2025 年知识库部署服务商、方案商核心名单推荐:企业知识库部署厂商本地化落地实操指南
  • Linux通过efibootmgr设置启动顺序
  • FileZilla 下载安装教程(详细图文步骤 + FTP/SFTP 配置指南)
  • 2025年目前有名的高效粉碎机制造企业选哪家,JGF-B系列高效粉碎机/JGF-C系列高效粉碎机/高效粉碎机供货商选哪家
  • 重庆钢琴大件搬运公司2025权威最新推荐:重庆澳通运输领跑行业!
  • 2025年市场排行前列的ISO认证机构怎么选择,ISO9001、ISO27001、ISO20000、ISO认证办理找哪家
  • 2025年市面上正规的干燥设备定做厂家口碑推荐,JFG-C系列高效沸腾干燥机/多功能动态干燥机/干燥设备生产厂家哪个好
  • 东方博宜OJ 1776:谁的孙子最多 II ← 邻接表 or 链式前向星
  • 2025深圳AI搜索排名优化标杆企业盘点:技术驱动下的排名突围新选择
  • 重庆搬家公司应该如何选?2025年最新推荐榜单与避坑指南出炉!
  • 2025年12月漏水水浸传感器,水浸开关传感器,水浸传感器厂家权威推荐,技术实力与市场口碑深度解析​
  • 2025年年终防火墙产品推荐:聚焦政企核心场景与实战验证的专家选购指南及优质案例清单
  • 2025年市面上正规的制粒设备供货商推荐榜单,高效沸腾制粒机/高效湿法制粒机//高效三合一制粒机/制粒设备制造厂家选哪家
  • 2025年12月北京会计师事务所TOP5权威测评榜单:五大专业机构实力全解析
  • 9
  • 2025年文具产品代加工实力厂家权威推荐榜单:工艺品来料加工/手工加工厂商/来料加工源头厂家精选
  • 【Week 37, 2025】每周阅读三篇论文