当前位置: 首页 > news >正文

Android开发转AI Agent:第8天——把文字变成数字,让计算机“读懂“语义

作者:一位Android开发工程师 | 2026年6月10日
系列:第二阶段开始,进入RAG(检索增强生成)核心


前言

前7天我一直在调 LLM API,但有一个根本限制——LLM 只能回答训练数据里有的东西。你问它"公司内部 API 文档怎么写",它不知道。

RAG(检索增强生成)解决这个问题:先把相关资料检索出来,再和问题一起发给 LLM。而 RAG 的第一步,就是今天要学的 Embedding——把文字变成数字向量。


Embedding 是什么

一句话:把"文字"翻译成"坐标",让语义相近的句子在数学空间里挨得近。

类比 Kotlin:就像给每部电影打分(剧情/画面/演技),然后两部评分相近的电影就是"相似"的。

"Android开发" → [0.12, -0.34, 0.78, ..., 0.45] (384个数字) "移动端编程" → [0.15, -0.31, 0.72, ..., 0.41] (384个数字,非常接近!) "今天下雨" → [-0.82, 0.61, -0.23, ..., 0.03] (差很远)

实验代码

fromsentence_transformersimportSentenceTransformerimportnumpyasnp model=SentenceTransformer("all-MiniLM-L6-v2")vec_a=model.encode("Android 应用开发")vec_b=model.encode("移动端 App 编程")vec_c=model.encode("今天天气很好适合出去跑步")# 余弦相似度:两个向量越接近,值越接近 1defcosine(a,b):returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))print(f"Android vs 移动端:{cosine(vec_a,vec_b):.4f}")# 预期 > 0.7print(f"Android vs 天气:{cosine(vec_a,vec_c):.4f}")# 预期 < 0.5print(f"移动端 vs 天气:{cosine(vec_b,vec_c):.4f}")# 预期 < 0.5

运行结果

Android vs 移动端: 0.7894 ← 高!意思相近 Android vs 天气: 0.4317 ← 低!不相关 移动端 vs 天气: 0.4487 ← 低!不相关

结果完美:语义相近的得分高,不相关的得分低。


关于模型选择

我用的是all-MiniLM-L6-v2(80MB,轻量级,支持中英文)。但后面第11天发现它对中文检索精度不够,换成了shibing624/text2vec-base-chinese(专为中文优化)。

国内下载 HuggingFace 模型需要镜像:

importos os.environ["HF_ENDPOINT"]="https://hf-mirror.com"

今天的一句话总结

Embedding 把"不可计算的语义"变成"可计算的数字"——两段文字的语义相似度,变成了两个向量的余弦距离。这是 RAG 检索的数学基础。


下一篇预告

第9天:向量检索——把多段文档向量化存储,查询时找到最相关的。


本系列记录一位Android开发者转行AI Agent的完整学习过程,欢迎关注交流。

http://www.gsyq.cn/news/1506413.html

相关文章:

  • 2026年最新 烟台靠谱小语种培训学校 语种 优势:合规性与性价比双维度实测 烟台出国留学机构 - 起跑123
  • 2026年GEO城市代理品牌排行:虎链GEO为什么适合做区域加盟?
  • GEO加盟品牌排行榜:技术源头、自研系统和效果对赌哪家更强?
  • 重新定义macOS视频体验:IINA播放器的三大核心优势
  • 5步搞定Windows虚拟手柄驱动:用ViGEmBus让任何手柄畅玩PC游戏
  • 台州母婴除甲醛检测治理公司2026避雷手册:Top5品牌横向对比与科学选择 - AZJ888
  • 突破性一键防撤回解决方案:PC版微信/QQ/TIM消息撤回终结者
  • 台州母婴除甲醛检测治理公司2026挑选指南:Top5品牌横向对比与科学选择 - AZJ888
  • 推荐系统(十八)双塔模型实战:从DSSM到工业级向量召回的样本工程与部署优化
  • 实战分享:在Vue项目中用Leaflet实现可旋转拖拽的矿区装载位地图(附完整代码)
  • 2026广州工伤事故律所TOP4深度测评|湾区工伤维权甄选指南:工伤认定、伤残评级、工地理赔、社保仲裁、职业病处置、赔偿诉讼、企业应诉 - 信息热点
  • 一次紧急DMP导入:12c导出到11g生产库,踩过的版本与字符集大坑
  • OpenCore Simplify:5分钟自动化配置黑苹果EFI的终极指南
  • 从电视盒子到Linux服务器:TX3 Mini S905W的Armbian重生之旅
  • 太原CMA甲醛检测治理公司2026挑选指南:Top5品牌横向对比与科学选择 - AZJ888
  • 品牌设计国际公司长期服务后结果偏差先核对交付标准
  • 南昌CMA甲醛检测治理公司2026避雷手册:Top5品牌横向对比与科学选择 - AZJ888
  • 用C语言写个‘最佳情侣身高计算器’:从PTA题目到实用小工具的完整实现
  • AI时代Geo优化:知识地图赋能品牌信任与引用的深度FAQ指南
  • 动手实验:用Python和liboqs库体验Kyber密钥封装(附完整代码)
  • 2026年硬核亲测:10款降AI率网站深度横评(附对比表)
  • Unity 商业项目中,我为什么要做 UI 代码自动生成
  • 工业质检入门实战:用MVTec AD数据集跑通你的第一个异常检测模型(附PyTorch代码)
  • Rnote:3个维度解锁你的数字手写创作潜能
  • 南昌母婴除甲醛检测治理公司2026避雷手册:Top5品牌横向对比与科学选择 - AZJ888
  • P87LPC778看门狗定时器原理与实战:独立时钟源与喂狗策略详解
  • 【课程设计/毕业设计】基于HarmonyOS的学生考勤系统的设计与实现校园日常考勤移动端智能管理系统(HarmonyOS)【附源码、数据库、万字文档】
  • 别再只用SolidWorks了!用MATLAB App Designer做个简易CAD工具,5分钟搞定参数化设计
  • 从PowerPC 604e规格书看嵌入式处理器设计的核心要素
  • 2026上海综合实力强的装修公司推荐榜:全包、整装、半包、局改装修靠谱选型指南 - 信息热点