拜耳与思特沃克合作,PRINCE平台提升制药临床前数据检索效率
导航链接
包含多个导航链接,如 [Refactoring](https://refactoring.com)、[Agile](/agile.html)、[Architecture](/architecture) 等。
主题
涵盖架构、重构、敏捷开发、交付、微服务、数据、测试、领域特定语言等主题。
关于我
包含关于、书籍、常见问题解答等相关内容。
内容
有视频、内容索引、片段、棋盘游戏、摄影等内容。
思特沃克(Thoughtworks)
包含主页、洞察、职业发展、技术雷达、工程实践等相关链接。
关注
可通过 RSS、Mastodon、领英、Bluesky、X、BGG 等渠道关注。
目录
包含顶部、挑战:穿越临床前数据迷宫、解决方案:PRINCE——一个进化型平台等内容。
构建可靠的智能 AI 系统
本文介绍了临床前信息中心(PRINCE),它是拜耳(Bayer AG)与思特沃克合作开发的基于云的平台,旨在解决制药行业药物开发挑战。PRINCE 利用智能检索增强生成和文本转 SQL 技术,整合数十年安全研究报告,从基于关键词搜索系统演变为智能研究助手。从上下文工程和控制工程角度反思关键工程决策,通过透明度、可解释性和人机协作建立用户信任,展示了人工智能在制药领域变革潜力,提高数据可访问性和研究效率,确保治理和合规性。2026 年 6 月 16 日。
作者信息
Sarang Kulkarni 是思特沃克首席顾问,专注软件工程、数据平台和应用人工智能交叉领域,致力于构建生产级生成式人工智能系统,为思特沃克全球人工智能服务开发团队做贡献,还教授相关课程。
内容
再次罗列挑战、解决方案、系统架构等相关内容。
临床前研究现状与机遇
临床前药物发现复杂且数据密集,研究人员面临有效访问和分析大量信息挑战,传统基于关键词搜索方法力不从心。大语言模型出现带来机遇,检索增强生成技术有望改变临床前数据访问方式。拜耳认识到潜力并探索利用这些技术解决临床前研究挑战。本文分享拜耳早期对生成式人工智能投资催生 PRINCE 的历程,探讨技术架构、工程决策和经验教训。还介绍了上下文工程和控制工程,以及发表在 [《人工智能前沿》](https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1636809/full) 上的论文更详细介绍产品演变和业务影响。
挑战:穿越临床前数据迷宫
拜耳临床前研究领域数据丰富多样,包括结构化数据集和非结构化信息。研究人员面临数据孤岛、搜索能力有限、手动分析耗时等障碍,凸显对更高效、智能和集成的临床前数据检索与分析方法的迫切需求。
解决方案:PRINCE——一个进化型平台
为解决挑战,拜耳开发 PRINCE 平台,最初是临床前数据统一入口,整合结构化研究元数据。但大量有价值的临床前知识在非结构化 PDF 研究报告中,生成式人工智能特别是 RAG 的出现解锁了这些数据。PRINCE 经历搜索、问答、执行三个阶段,从搜索到问答再到执行的演变是对行业需求的战略回应,旨在实现更快数据驱动决策,加速疗法开发。
系统架构:构建可靠的智能检索增强生成(RAG)系统
系统作为交互式对话式用户界面运行,由强大后端基础设施支持。架构通过 _LangGraph_ 编排,_FastAPI_ 应用程序提供服务。介绍了系统上下文和支持平台,包括用户请求、编排、数据检索和状态管理、利用内部生成式人工智能平台、弹性和错误处理、可观测性和评估、最终响应等环节。还强调了上下文管理原则,不同阶段接收不同上下文,减少上下文污染。
智能 RAG 系统
PRINCE 集成智能 RAG 系统,使用 _LangGraph_ 实现,编排工作流,利用研究代理、写作代理和反思代理执行任务,具备多种回退机制确保系统可靠运行。
明确用户意图
“明确用户意图”步骤是消除歧义的第一道防线,系统主动提出澄清问题,确定特定领域或数据类型,增强查询约束条件。通过开发 _领域级选择_ 和提供人工智能辅助的数据源推荐优化过程,“快速失败”机制防止资源浪费。从上下文工程角度看,此步骤限制后续代理接收的问题范围。
思考与规划:过程反思
“思考与规划”步骤负责制定满足用户请求的策略,进行过程反思,评估代理是否朝着最终目标取得正确进展。在多步骤智能工作流中,过程反思至关重要,特别是工具数量增加时,该步骤可提高工具选择准确性,对于编排多步骤过程也很关键。
研究代理
研究代理是主要信息收集者,数据分为结构化和非结构化两类。随着 PRINCE 扩展,将研究能力发展为特定领域子代理层次结构,采用混合检索器方法,包括检索增强生成(RAG)和文本转 SQL。
用于非结构化数据的检索增强生成(RAG)
鉴于大量非结构化文档,RAG 提取相关见解至关重要。介绍了 RAG 管道的摄入过程和查询时架构,包括关键词提取、元数据过滤器生成、查询扩展、混合检索器、重排、最终大语言模型提示生成、带引用的响应生成和监控等步骤。
用于结构化数据的文本转 SQL
需要对结构化数据进行精确过滤等查询更适合文本转 SQL。介绍了将自然语言问题转换为 SQL 查询并检索结果的过程,包括查询分析和意图识别、模式理解和相关模式选择、动态少量样本提示、SQL 查询生成和验证、查询执行和结果限制、错误处理和迭代等步骤。
反思代理:数据验证与充分性检查
反思代理执行数据反思,评估检索到的数据是否足以回答用户问题,与过程反思目的不同。在多步骤智能工作流中,两者都必不可少。反思代理评估数据充分性和相关性,若信息不足则生成后续问题,推动迭代检索。
写作代理:答案合成与格式化
写作代理将检索到的证据转化为最终答案,遵循不可协商规则,如建立主张在上下文中、准确引用、满足格式化要求等。对于复杂响应,架构支持通过内部审查循环扩展写作代理,实现轻量级反思,输出供专家审查。PRINCE 提供三个互补的反思循环。”
