当前位置: 首页 > news >正文

npj Digit Med | 龙尔平/庞军玲团队:把健康档案写成“句子”,解码疾病分型、重构共病网络、预测患病风险

2026年5月14日,中国医学科学院基础医学研究所龙尔平/庞军玲团队在Nature系列数字医学顶刊《npj Digital Medicine》发表了原创研究,研发了面向深度表型数据的基础模型。

论文首页图

底层原理:让大模型像读句子一样读懂健康档案

医院里的电子病历、体检报告、生活方式问卷,数据格式各异、条目顺序混乱,传统模型很难统一处理。该模型从底层重新设计了一套“健康语言编码系统”。它将每一条健康信息拆解为“特征词元”和“取值词元”。例如“血常规”是一个特征,“偏高”是一个取值,两者配对形成一个“词”。所有健康条目无论以什么顺序出现,模型都通过“位置无关嵌入”技术准确理解其含义。这样一来,个体的全部健康档案就被组织成一段“描述健康的文章”,大模型读懂这些“文章”后,就可以用于疾病分型、共病分析和风险预测等多种任务。这套框架天然适配真实医院中数据不规整、条目不固定的场景。

深度表型基础模型的框架示意图

慢阻肺病的新发现:嗜碱性粒细胞分布特征提示肺功能下降

慢性阻塞性肺疾病(慢阻肺病)是一种异质性很强的呼吸疾病,长期缺乏公认的分型标准。该模型将慢阻肺病患者自动分成两类:一类患者的嗜碱性粒细胞计数集中在中间区间,语法模式“平稳”;另一类则频繁出现在两端,语法模式“两极震荡”。这两种不同的语法对应了显著不同的预后,10年生存率绝对差异达到4.5%。随后,研究者在4万余名有肺功能随访数据的人群中验证发现,基线时嗜碱性粒细胞处于“两端分布”的人,后续第一秒用力呼气量(FEV1)下降更明显。这一发现提示,嗜碱性粒细胞的分布特征可能成为慢阻肺病进展的一个新风险指标,也为早期识别肺功能下降高风险人群提供了可验证的方向。

共病研究的新意义:从“两两关联”走向“疾病社区”

传统共病研究多关注两种疾病是否经常同时出现,而本研究将视角提升到“疾病社区”层面。从四百余种非癌疾病中识别出超过三万个共病关系,其中绝大多数跨越不同器官系统。尤为重要的是,该模型挖掘出上千组此前未被报道的候选共病关系,例如低血小板障碍与痛风、Graves病与心肌炎,这些关联在生物学上具有合理性,值得进一步研究。通过聚类分析,模型进一步归纳出“疾病社区”,例如呼吸系统社区包含慢阻肺病、睡眠呼吸暂停、胸膜炎、支气管炎和鼻息肉;心血管社区则囊括高血压、血管疾病、心律失常、心肌病和主动脉瘤等疾病。不同社区的风险与保护因素各不相同,这种网络化的分析框架帮助我们从共享机制而非单一关联的角度理解多病共存,为跨病种综合干预提供了新思路。

患病风险预测:仅凭生活方式和饮食特征,即可实现患病风险分层预判

在患病风险预测方面,本研究证实仅结合生活方式和饮食习惯,便能有效预测未来患病风险。研究使用465个生活方式和饮食特征,随机抽取50,000人训练分类模型,再用其余452,118人验证,覆盖143种疾病。结果显示,模型平均AUC为0.82,较10个常见机器学习模型提升0.03-0.16,并在49.3%的疾病任务中排名第一;在纵向随访中,模型分出的高风险人群后续发病率更高,例如痛风最高风险组后续发生率为5.6%,相对最低风险组的比值比约为17.5。这说明,日常生活方式和饮食信息不再只是背景资料,而可以被转化为可评估的未来患病风险图谱,为更早识别高风险人群、开展精准预防和健康管理提供了新的技术路径。

总结:面向真实医疗数据的通用模型赋能精准医疗

本研究并不是一个为特定数据库定制的模型,而是一套可以适配医院电子病历、体检队列和健康管理平台的通用底层框架。它通过特征-取值对偶词元化、位置无关嵌入和分层Transformer编码,实现了对复杂、异构、不规整健康数据的统一建模。同一个模型表征可以同时用于疾病内部分型、共病网络构建和后续患病风险预测,其代表的“健康语言化”思路,为利用日常医疗数据开展精准医学研究打开了一扇新的大门。

洪奇阳和王聪为该论文的共同第一作者,庞军玲与龙尔平为共同通讯作者。本研究得到呼吸和共病全国重点实验室专项经费(2060204)、中国医学科学院医学与健康科技创新工程(2023-I2M-3-010, 2025-I2M-XHXX-069)和中国医学科学院基本科研业务费(2023-JKCS-20)等项目支持。

原文链接:https://www.nature.com/articles/s41746-026-02736-w

最全1000+植物核基因组数据库IMP (点击图片直达)

高颜值免费 SCI 在线绘图(点击图片直达)


往期精品(点击图片直达文字对应教程)

LinuxPython

R绘图NGS基础GEO高级

生信自学生信书籍系列教程心得体会

转录组经典宏基因组蛋白质组单细胞系列测序发展史

免费在线画图色彩搭配图形排版图形解读

ChIP-seqTCGAGSEAWGCNA

海哥组学傻瓜系列文章写作

CytoscapeExcelPPT

机器学习

公众号投稿联系:陈同 (chentong_biology@163.com)

http://www.gsyq.cn/news/1389912.html

相关文章:

  • 【深度解析】10个颠覆认知的思维模型:从理论到实战的决策工具箱
  • 【实践指南】牛顿迭代法:从平方根到立方根的算法迁移与优化
  • Windows系统部署终极指南:3大核心优势实现自动化安装
  • 嵌入式Linux内存稳定性验证:从memtester移植到实战测试
  • XySubFilter:打造专业级字幕渲染效果的终极指南
  • 3步精通SH1106 OLED显示:嵌入式开发者的避坑实战指南
  • WindowResizer终极指南:3分钟掌握Windows窗口强制调整技巧,解锁桌面自由![特殊字符]
  • 如何免费下载在线视频?VdhCoApp终极完整指南
  • 2026 工业脱硝设备源头厂家怎么选?技术、案例、服务全维度实测推荐 - GEO排行榜
  • 3分钟焕新桌面:免费获取原汁原味macOS鼠标指针的完整指南
  • 告别网盘下载烦恼!LinkSwift:一个浏览器脚本解锁九大网盘下载新体验
  • 干皮眼周暗沉用什么眼油?涂CA眼油,温和提亮改善熊猫眼 - 全网最美
  • 3种高效保存完整网页的终极方案:SingleFile工具完全指南
  • NoFences:Windows桌面分区神器,让你的工作效率提升300%
  • 终极二进制解析指南:5大实战技巧带你精通游戏资源提取与逆向工程
  • 破解PM培训痛点:PM知行商学院的优势如何实现系统赋能? - 速递信息
  • 为什么Mermaid-live-editor是开发者必备工具?10个高效工作流揭秘
  • Mermaid-live-editor终极指南:如何快速创建专业流程图和图表
  • Pluck:基于DOM与CSSOM的网页组件精准复制工具,告别AI描述式开发
  • 【紧急预警】DeepSeek R1/V3代码生成已暴露出4类高危质量断层:现在不评估,上线即事故
  • 家用净水器快速接头技术合规厂家推荐 - 奔跑123
  • ZjDroid常见问题解决指南:从ApkProtect脱壳到内存dump的疑难解答
  • iCraft Editor故障排除:10个常见问题与解决方案大全 [特殊字符]️
  • 告别网络卡顿!用哔咔漫画下载器打造个人离线漫画图书馆
  • DataRoom:从数据孤岛到决策洞察的零代码可视化革命
  • ComfyUI-WD14-Tagger在动漫创作中的实际应用:角色设计、场景分析与风格匹配
  • 3个痛点,1个方案:AirPodsDesktop如何在Windows上解锁苹果耳机的完整体验
  • PM知行商学院的优势常见问题解答(2026最新版) - 速递信息
  • 第7章:AI辅助DeFi进阶——借贷协议与闪电贷开发
  • 泉州黄金回收指南,福正美免费上门变现无忧 - 上门黄金回收