当前位置: 首页 > news >正文

鲁东大学提出可解释的自适应集成机器学习全基因组选择算法用于小麦产量性状关键SNPs筛选

研究背景

全基因组选择(genomic selection, GS)是现代分子育种中的一项重要技术,作为一种强大的机器学习GS方法,堆叠集成学习(stacking ensemble learning, SEL)有效地融合了不同模型(基学习器)的优势,以精确描绘表型与基因型之间的复杂关系。然而,在SEL的关键步骤中,目前缺乏一种有效且统一的基学习器选择框架,而且仅根据经验选择固定的基学习器并不总是合理的。所以,有必要开发一种能够根据数据本身的特征从大量候选模型中自适应选择高性能基学习器,从而构建高效SEL模型,并对模型可解释性进行探索。

论文概要

202587日,鲁东大学麦类分子育种创新团队Theoretical and Applied Genetics发表了题为AdaptiveGS: an explainable genomic selection framework based on adaptive stacking ensemble machine learning的研究论文。该研究开发了一种自适应且可解释的数据驱动型基学习器选择策略——adaptiveGS,用于为堆叠GS框架预筛选最优的基学习器,提高小麦产量性状基因组估计育种值(Genomic estimated breeding valueGEBV)预测准确性。进一步引入SHAP (the SHapley Additive explanations)方法对adaptiveGS的结果进行解释,可识别与小麦产量性状高度相关的显著单核苷酸多态性(SNPs),即主效应,并阐释SNPs间的交互效应。该研究不仅丰富了小麦产量性状全基因组选择算法,也有望在粮食增产、育种芯片设计及可持续农业发展等方面发挥作用。

主要研究结果

1.PR指数基学习器选择策略有效提升堆叠集成机器学习预测能力

本文利用皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)构建PR指数,通过PR指数从7个(或自定义)机器学习模型中自动筛选出排名前3的模型作为基学习器(图2),取代以往研究中事先根据经验直接指定基学习器的方式,从而使得算法能够根据数据自身特征自适应筛选高性能基学习器,进而组建高效堆叠集成算法(图1),提升其预测能力。

2.基于PR指数的adaptiveGS框架显著提升动植物育种GEBVs预测精度

基于PR指数构建了adaptiveGS框架(图1),在包含小麦在内的4个动植物物种21个性状上,将adaptiveGS与其他13GS算法进行了比较。结果表明,adaptiveGS21个性状中的大多数上优于这13个模型,平均预测准确率(PCC)达到0.703,平均提高了14.4%(图4),展现出优异的预测准确性和稳健性。

3.基于SHAP技术的adaptiveGS框架有助于解释小麦产量性状关键SNPs

利用SHAP事后解释技术对adaptiveGS进行解释,并识别影响小麦产量性状变异的显著SNPs以及SNPs之间潜在的相互作用效应。结果表明,本研究提出的adaptiveGS算法有助于识别可能影响小麦产量性状的潜在显著SNP位点,并可使用SHAP方法直观展示每个SNP对小麦产量性状GEBV预测的贡献(图6,图7,图8)以及SNPs之间的潜在相互作用效应(图9)。

全文总结

在本研究中,我们开发了一种自适应且统一的堆叠集成机器学习全基因组选择框架,并设计了一种模型解释策略,以识别小麦产量性状的候选显著SNPs。针对基学习器选择中存在的不确定性问题,引入了基于皮尔逊相关系数(PCC)和归一化均方根误差(NRMSE)的PR指数,自动筛选最适配的基学习器构建堆叠基因组选择模型,该过程由输入的训练数据驱动,而非依赖用户经验,有助于为每一组表型和基因型数据“量身定制”精准的堆叠模型。将adaptiveGS与包括经典GS模型、机器学习和深度学习在内的13种模型的预测精度比较,发现adaptiveGS在大多数场景中优于所有13种模型。最后,通过SHAP值对adaptiveGS模型进行了解释,以提供GS研究中与特定性状相关的重要SNPs信息。本研究在有效提升GS模型小麦产量性状GEBV预测精度的同时,可较好地阐释影响小麦产量性状的若干关键SNPs,并为提升小麦产量、智能育种芯片设计以及推广到其他动植物育种领域等提供了理论依据和技术支撑。

http://www.gsyq.cn/news/30463.html

相关文章:

  • 台球厅收银台押金原路退回系统押金预授权—东方仙盟 - 详解
  • 数论专题小记
  • 《程序员修炼之道:从小工到专家》笔记1
  • 科普报告:分子标记辅助选择(MAS)育种
  • 实用指南:【ansible/K8s】K8s的自动化部署源码分享
  • 作物遗传育种中的多亲本互交群体(MAGIC)
  • 联邦大型语言模型、多智能体大型语言模型是什么? - 详解
  • 一个用于自动化基因表达分析的多智能体框架GenoMAS
  • 50年的玉米育种改良,是如何应对气候变化的?
  • 刷题日记—洛谷数组题单—幻方
  • python爬虫进阶版练习(只说重点,selenium) - 指南
  • 基因组选择(GS)如何加速作物遗传增益?
  • OpenAI推出内置ChatGPT的Atlas浏览器:重新定义网页浏览体验
  • 数据清洗
  • 102302110高悦作业1
  • 2025.10.23 模拟赛
  • Day23-C:\Users\Lenovo\Desktop\note\code\JavaSE\Basic\src\com\InOut
  • LLM学习记录DAY12
  • 深入解析:Zark Lab 与 Walrus 合作,建立内容发现、可访问性与实用性的基础 AI 智能层
  • 前后端分离毕设课题:基于React.js+Java+Springboot框架+Mysql数据库在线买菜商城专业的系统设计与实现
  • 2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践
  • Windows 11 家庭版关闭自动更新
  • 权威调研榜单:石英砂生产线厂家TOP3榜单好评深度解析
  • FSEventsParser脚本升级与macOS取证技术解析
  • redis食用方法
  • cnbook主题风格美化 —— 01(未完成)
  • 【嵌入式】IIC和SPI的比较
  • SpringBoot 的配置文件与日志 - 实践
  • 给web增加简单的ai对话功能
  • 2025年10月离心干燥机厂家全景解析报告,基于专业测评的技术、性能及市场优势深度分析