当前位置：首页 > news >正文

Android开发转AI Agent：第8天——把文字变成数字，让计算机“读懂“语义

news 2026/6/11 21:42:27

作者：一位Android开发工程师 | 2026年6月10日
系列：第二阶段开始，进入RAG（检索增强生成）核心

前言

前7天我一直在调 LLM API，但有一个根本限制——LLM 只能回答训练数据里有的东西。你问它"公司内部 API 文档怎么写"，它不知道。

RAG（检索增强生成）解决这个问题：先把相关资料检索出来，再和问题一起发给 LLM。而 RAG 的第一步，就是今天要学的 Embedding——把文字变成数字向量。

Embedding 是什么

一句话：把"文字"翻译成"坐标"，让语义相近的句子在数学空间里挨得近。

类比 Kotlin：就像给每部电影打分（剧情/画面/演技），然后两部评分相近的电影就是"相似"的。

"Android开发" → [0.12, -0.34, 0.78, ..., 0.45] （384个数字） "移动端编程" → [0.15, -0.31, 0.72, ..., 0.41] （384个数字，非常接近！） "今天下雨" → [-0.82, 0.61, -0.23, ..., 0.03] （差很远）

实验代码

fromsentence_transformersimportSentenceTransformerimportnumpyasnp model=SentenceTransformer("all-MiniLM-L6-v2")vec_a=model.encode("Android 应用开发")vec_b=model.encode("移动端 App 编程")vec_c=model.encode("今天天气很好适合出去跑步")# 余弦相似度：两个向量越接近，值越接近 1defcosine(a,b):returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))print(f"Android vs 移动端:{cosine(vec_a,vec_b):.4f}")# 预期 > 0.7print(f"Android vs 天气:{cosine(vec_a,vec_c):.4f}")# 预期 < 0.5print(f"移动端 vs 天气:{cosine(vec_b,vec_c):.4f}")# 预期 < 0.5

运行结果

Android vs 移动端: 0.7894 ← 高！意思相近 Android vs 天气: 0.4317 ← 低！不相关 移动端 vs 天气: 0.4487 ← 低！不相关

结果完美：语义相近的得分高，不相关的得分低。

关于模型选择

我用的是all-MiniLM-L6-v2（80MB，轻量级，支持中英文）。但后面第11天发现它对中文检索精度不够，换成了shibing624/text2vec-base-chinese（专为中文优化）。

国内下载 HuggingFace 模型需要镜像：

importos os.environ["HF_ENDPOINT"]="https://hf-mirror.com"

今天的一句话总结

Embedding 把"不可计算的语义"变成"可计算的数字"——两段文字的语义相似度，变成了两个向量的余弦距离。这是 RAG 检索的数学基础。

下一篇预告

第9天：向量检索——把多段文档向量化存储，查询时找到最相关的。

本系列记录一位Android开发者转行AI Agent的完整学习过程，欢迎关注交流。

查看全文

http://www.gsyq.cn/news/1506413.html

2026年GEO城市代理品牌排行：虎链GEO为什么适合做区域加盟？

GEO加盟品牌排行榜：技术源头、自研系统和效果对赌哪家更强？

重新定义macOS视频体验：IINA播放器的三大核心优势

5步搞定Windows虚拟手柄驱动：用ViGEmBus让任何手柄畅玩PC游戏

台州母婴除甲醛检测治理公司2026避雷手册：Top5品牌横向对比与科学选择 - AZJ888

突破性一键防撤回解决方案：PC版微信/QQ/TIM消息撤回终结者

台州母婴除甲醛检测治理公司2026挑选指南：Top5品牌横向对比与科学选择 - AZJ888

推荐系统（十八）双塔模型实战：从DSSM到工业级向量召回的样本工程与部署优化

实战分享：在Vue项目中用Leaflet实现可旋转拖拽的矿区装载位地图（附完整代码）

2026广州工伤事故律所TOP4深度测评｜湾区工伤维权甄选指南：工伤认定、伤残评级、工地理赔、社保仲裁、职业病处置、赔偿诉讼、企业应诉 - 信息热点

一次紧急DMP导入：12c导出到11g生产库，踩过的版本与字符集大坑

OpenCore Simplify：5分钟自动化配置黑苹果EFI的终极指南

从电视盒子到Linux服务器：TX3 Mini S905W的Armbian重生之旅

太原CMA甲醛检测治理公司2026挑选指南：Top5品牌横向对比与科学选择 - AZJ888

品牌设计国际公司长期服务后结果偏差先核对交付标准

南昌CMA甲醛检测治理公司2026避雷手册：Top5品牌横向对比与科学选择 - AZJ888

用C语言写个‘最佳情侣身高计算器’：从PTA题目到实用小工具的完整实现

AI时代Geo优化：知识地图赋能品牌信任与引用的深度FAQ指南

动手实验：用Python和liboqs库体验Kyber密钥封装（附完整代码）

2026年硬核亲测：10款降AI率网站深度横评（附对比表）

Unity 商业项目中，我为什么要做 UI 代码自动生成

工业质检入门实战：用MVTec AD数据集跑通你的第一个异常检测模型（附PyTorch代码）

Rnote：3个维度解锁你的数字手写创作潜能

南昌母婴除甲醛检测治理公司2026避雷手册：Top5品牌横向对比与科学选择 - AZJ888

P87LPC778看门狗定时器原理与实战：独立时钟源与喂狗策略详解

【课程设计/毕业设计】基于HarmonyOS的学生考勤系统的设计与实现校园日常考勤移动端智能管理系统（HarmonyOS）【附源码、数据库、万字文档】

别再只用SolidWorks了！用MATLAB App Designer做个简易CAD工具，5分钟搞定参数化设计

从PowerPC 604e规格书看嵌入式处理器设计的核心要素

前言