浙江大学与伦敦大学学院联手打造“科学地图“
这项由浙江大学与伦敦大学学院联合开展的研究,以技术报告形式发布于2026年5月,论文编号为arXiv:2605.22878,有兴趣深入钻研的读者可通过该编号查阅完整原文。
每一位做过学术研究的人,几乎都经历过这样的困境:面对堆积如山的论文,不知从何下手;花了大量时间检索,却总感觉遗漏了某篇关键文献;明明两个领域有关联,却因为专业壁垒而始终无法贯通。这不只是人类研究者的痛点,随着AI科研助手开始承担越来越多的文献梳理、假设生成、趋势预判等任务,同样的问题也困扰着这些"机器同行"。
浙大与UCL的研究团队认为,问题的根源并不在于AI不够聪明,而在于它们所依赖的知识组织形式存在先天缺陷。现有的学术搜索工具,要么靠关键词匹配(像图书馆索引卡一样机械),要么靠向量语义检索(像凭直觉猜相关文章),两者都只是在"外观"层面比较文章,无法理解文章背后真正的逻辑连接。而近年兴起的"深度搜索"AI代理,虽然试图通过反复迭代查询来弥补这一不足,却付出了极高的计算成本,并且在复杂的探索路径中极易产生"幻觉"——即编造出并不存在的联系或引用。
正是为了填补这一空白,研究团队构建了SciAtlas——一张覆盖26个学科、汇聚超过4330万篇学术论文的大规模知识图谱,总计包含1.57亿个知识实体和30亿条关系三元组,并在此基础上开发了一套神经符号检索算法,让AI能够像侦探一样沿着知识拓扑结构追踪线索,而不再局限于字面意义的相似度比较。
---
一、为什么现有的"学术搜索"根本上是有缺陷的
假设你是一名刑警,正在调查一桩复杂案件。现有的学术搜索工具就像是给了你一份按姓名排列的嫌疑人名单——你能根据名字找到某个人,却完全看不到这些人之间的关系网络:谁是谁的同谋,谁和谁在同一个时间出现在同一地点,谁因为认识某人而间接卷入案件。光靠名单,你永远无法理解整个犯罪网络的结构。
当前学术知识的组织状态,正是这种"孤立名单"式的困境。数以亿计的研究成果散落在互联网各处,以非结构化的文本形式存在,彼此之间缺乏统一的关联机制。论文A引用了论文B,但这条引用关系深埋在PDF的参考文献列表中,没有任何系统能告诉你:A和B在方法论上有何传承,它们共同的关键概念在整个领域中处于什么位置,以及还有哪些你从未听说过的论文C,其实与你的研究方向高度相关。
这种"知识孤岛"现象带来了两个严重后果。对于人类研究者来说,跨学科整合变得极度困难,你很可能在某个领域花了大量时间"重新发明轮子",却不知道另一个领域早已有了成熟的解决方案。对于AI代理来说,缺乏结构化的认知地图,意味着它只能依靠语言模型本身的参数记忆来"猜测"知识之间的逻辑关系,这正是AI幻觉(即编造不存在的引用或联系)产生的根本原因之一。
研究团队将当前检索范式的缺陷概括为两类:一是知识的组织形式问题,即碎片化与非结构化;二是检索的推理能力问题,即现有方法本质上都是"扁平化的特征比较",无法支持真正的拓扑推理。换句话说,知道两篇文章"看起来相似",和知道它们"为什么相关、通过什么路径相关",是截然不同的两件事。SciAtlas要做的,正是把后者变为可能。
---
二、SciAtlas究竟是什么:一张活的科学进化网络
用最直白的方式描述SciAtlas:它是一张超大规模的"学术关系地图",把4330万篇论文以及围绕这些论文的一切相关实体——作者、机构、关键词、研究方向、期刊来源——都变成了地图上的节点,再用30亿条有明确含义的边把这些节点连接起来,形成一个可以被计算机精确遍历和推理的知识网络。
这张地图的核心骨架由九类实体节点构成。论文(Paper)是最核心的节点,每篇论文都携带标题、摘要、DOI、发表时间、引用次数、开放获取状态、PDF链接等丰富属性,甚至还预先计算好了标题和摘要的语义向量,为后续的快速检索做好准备。围绕论文节点,作者(Author)节点记录了每位研究者的ORCID编号、H指数、i10指数、近两年的平均被引量等学术影响力数据;机构(Institution)节点包含所在国家、城市、类型及主页链接;期刊或会议来源(Source)节点则标注了是否开放获取、是否为核心期刊等信息。
在知识分类层面,SciAtlas构建了一个四层的学科体系:领域(Domain,共4个,对应最宏观的学科大类)、学科(Field,共26个)、子领域(Subfield,共252个)、主题(Topic,共4520个)。这四层结构把每篇论文定位到一个精确的学术坐标系中。值得一提的是,SciAtlas还专门构建了一类独特的节点:关键词(Keyword)。这类节点并不是直接照搬论文的标签,而是通过一套精心设计的LLM提取流程,从每篇论文的摘要中萃取出3到8个高度通用、可在大量论文间复用的核心概念词汇。每个关键词节点同样预计算了语义向量,方便模糊匹配。
连接这些节点的是12类关系边,它们在四个层次上编织出论文之间的关联网络。在语义层面,CITES(引用)关系和RELATED\_TO(相关)关系直接连接论文,记录显式的学术继承或相关性;在概念层面,HAS\_KEYWORD边把论文与其核心关键词相连,而不同关键词之间的COOCCUR(共现)关系则以共现频率为权重,描绘出概念之间的亲疏远近;在方向层面,DOMAIN\_OF、FIELD\_OF、SUBFIELD\_OF等层级关系构成学科分类树;在社会层面,AUTHORED边连接作者与其论文,COAUTHOR边以合作次数为权重描述研究者之间的协作关系,AFFILIATED\_WITH边记录作者与所属机构的关联。
从规模上看,SciAtlas包含医学(18.56%)、社会科学(10.70%)、工程(9.43%)、生化遗传分子生物学(6.44%)、计算机科学(6.29%)等26个学科的论文,这五大学科合计占据总量的51.43%,其余从人文艺术(3.33%)到兽医学(0.16%)均有覆盖,确保了跨学科研究的广度。1.097亿位作者、376万个关键词、12万个机构节点共同构成了这个知识宇宙的人物志与概念库。
---
三、关键词是如何被"提炼"出来的:一场对抗营销语言的战争
SciAtlas在构建过程中遇到的一个有趣挑战,值得单独详谈。OpenAlex(SciAtlas的主要数据来源,一个包含4.8亿篇学术出版物的开源数据库)确实提供了一类叫做"Concept"的概念实体,但这些概念条目只有6.5万个,平均到4.8亿篇论文上,粒度极度粗糙,基本上只能达到"人工智能"、"机器学习"这样的宏观层面,完全无法区分两篇都属于"深度学习"领域但实际关注点截然不同的论文。
研究团队意识到,想让知识图谱真正发挥连接作用,需要更密集、更精准的关键词网络。他们调用了一个轻量级的开源大语言模型(Qwen3-30B-A3B-Instruct)作为关键词提取器,对每篇论文的摘要进行分析,抽取出3到8个核心关键词,同时让模型为每个关键词的相关性打分(1到10分的整数),这个分数后来成为知识图谱中HAS\_KEYWORD边的属性值。
提取过程的精妙之处在于团队对关键词质量的严格把控。他们明确要求模型避免两类词汇:一是论文专属的系统名称或项目名称(比如"AlphaEvolve"这样只在一篇论文中出现的名字),二是营销风格的华丽描述(比如"多阶段跨模态特征融合架构"这样听起来高大上却无法复用的长串短语)。真正好的关键词应当是那些能在大量不同论文中反复出现的基础概念,比如"蛋白质结构预测"、"无线通信"、"能量优化"、"故障检测"——这些词汇既足够具体,又足够通用,能够在概念层面把来自不同学科的相关研究自然地串联起来。
关键词提取完成后,研究团队还为同一篇论文中同时出现的关键词之间建立了COOCCUR(共现)关系,以共现频次作为边权重。这样一来,经常一起出现的概念会在知识图谱中形成更紧密的连接,为后续的拓扑推理提供了概念关联的结构性依据。
此外,研究团队还为三类最富语义信息的字段——论文标题、论文摘要和关键词文本——预先计算了维度为1024的语义向量,使用的是bge-large-en-v1.5嵌入模型。这些向量被直接存储为相应节点的属性,为后续的向量检索提供了基础。整个知识图谱最终部署在Neo4j图数据库上,并建立了多类索引(范围索引、全文索引、向量索引),确保各类查询都能高效响应。
---
四、神经符号检索算法:侦探如何在知识地图上追踪线索
拥有了一张详尽的地图,接下来的问题是:如何在这张地图上进行导航?研究团队开发的神经符号检索算法,是SciAtlas最具技术含量的部分,也是它区别于普通学术搜索的核心所在。
这套算法的名字叫做"三路协同召回+图重排序",听起来复杂,但用侦探办案的比喻来理解就清晰多了。当一位侦探接到一个案子(对应用户的查询),他会同时从三个不同角度收集线索,然后把线索整合起来,沿着人物关系网络深入追查,最终给出一份有据可查的嫌疑人排名。
第一条线索路径叫做关键词匹配。系统先用语言模型从查询文本中提取关键词,并为每个关键词打上重要性分数,然后在知识图谱中进行两种匹配:精确文本匹配(就像在嫌疑人档案中直接找到同名同姓的人),以及向量相似度匹配(就像根据体貌特征找到"长得很像"的人,相似度阈值默认设为0.7,每个关键词最多保留前3个匹配节点)。如果同一个关键词节点被多个输入关键词匹配到,取所有匹配分数的最大值作为该节点的最终权重。
第二条线索路径叫做语义匹配。系统把整个查询文本编码为语义向量(如果输入的是完整论文,则只取摘要部分进行编码),分别在论文标题向量和摘要向量两个向量空间中各检索前60篇相关论文,然后用一个重排序模型(bge-reranker-large)对候选论文进行精细重排,各保留前15篇。最终,标题匹配分数和摘要匹配分数以0.4:0.6的比例加权合并,反映了摘要通常比标题携带更多信息的认知常识。
第三条线索路径叫做标题匹配,专门针对那些输入内容中包含具体论文标题的查询(比如用户上传了一篇自己的草稿论文,或者输入了一个包含参考文献的研究想法)。系统用GROBID工具从输入文本中抽取所有标题(包括论文本身的标题和其参考文献的标题),语言模型为每个标题的置信度打分,保留置信度最高的前10个标题。随后,系统在知识图谱中寻找匹配的论文——精确匹配得满分1.0,模糊匹配则综合使用最长公共子序列(衡量字符顺序相似性)和Jaccard词集重叠率(衡量词汇重合程度)计算相似分,低于0.88阈值的候选直接丢弃,每个标题最多保留5篇匹配论文。
三条路径检索到的论文节点最终需要合并,并统一成一套可比较的权重体系。合并过程中,精确标题命中会额外获得0.35的奖励分,模糊标题命中获得0.10的奖励分,这体现了标题匹配相对于纯语义相似度的更高可信度。标题路径权重(默认0.8)明显高于语义路径权重(默认0.3),这个设计选择也反映了论文标题作为精确检索依据的独特价值。
---
五、沿着关系网络深度漫游:从线索节点到隐藏发现
收集完初始线索之后,侦探的真正工作才刚刚开始——他需要顺着已知线索,在整个社会关系网络中扩散调查,找出那些表面上看起来与案件无关,但实际上通过中间人深度关联的人物。SciAtlas的图遍历机制正是扮演了这个角色。
系统以关键词种子节点集合和论文种子节点集合为出发点,在知识图谱中进行2跳子图扩展(即从种子节点出发,把直接相邻的节点和再下一层的节点都纳入视野)。所有边在扩展过程中被视为无向边,确保关系可以双向流动。为防止子图爆炸(即节点数量指数级膨胀),每一跳对每种实体类型最多保留500个节点。
在这个扩展子图中,每条边的权重根据其类型被赋予不同的数值。HAS\_KEYWORD边(论文与关键词之间)的基础权重最高(默认1.20),并且乘以该关键词节点是否为种子节点的调节因子——种子关键词节点使用其初始匹配分数作为调节因子,非种子关键词节点使用一个较小的平滑因子(默认0.25),以及该边的重要性分数。CITES边(引用关系)基础权重为1.00,RELATED\_TO边为0.90,AUTHORED边为0.80,COAUTHOR边(合著关系,乘以对数平滑的合著频次)和COOCCUR边(关键词共现关系,乘以对数平滑的共现频次)的基础权重均为0.60。这套权重体系的设计逻辑很直观:引用关系是最直接的学术联系,关键词共享是最强的概念纽带,而合著关系则是相对间接的社会联系。
每篇论文的重要性还需要结合其引用次数来调整,使用对数缩放公式计算重要性得分——这既避免了高被引论文的权重过度膨胀,也确保了被引量多的论文能获得合理的额外加成。对于特别关注相关性而非质量的场景,可以将所有论文的重要性强制设为1,让检索结果完全由图拓扑结构决定。
完成节点权重和边权重的设定后,系统运行一种叫做"带重启的随机游走"(Random Walk with Restart)的图传播算法。用大白话解释:把整个知识图谱想象成一张城市地铁网络,种子节点就是"出发站",边权重就是"各条线路的班次密集程度"。一个随机漫步者从出发站出发,每到一个节点,就有一定概率按照边权重随机选择下一步去哪个相邻节点,同时也有一定概率(重启概率α)直接"瞬移"回出发站重新开始。经过大量迭代(最多50次,直到每次迭代前后的节点分数变化幅度小于百万分之一为止),每个节点最终积累的访问频率,就反映了它在这个知识网络中与查询主题的拓扑关联强度。
---
六、最终排名:三维度融合的综合评分体系
经过图传播之后,系统拿到了整个子图中每个节点的拓扑分数。对于论文检索任务,系统提取所有论文节点的分数,并进行最后一轮综合评分。这一步的核心思想是防止图扩散过度"奖励"那些离初始查询很远、仅靠拓扑结构得分的论文。
为此,系统引入了一个图支持因子:对每篇论文,取其初始检索分数(经MinMax归一化后)与0.25的较大值作为图支持因子。这个设计意味着,如果一篇论文在初始三路召回阶段完全没有被检索到(初始分数为零),那么即使它在图遍历中获得了很高的拓扑分数,也会被这个因子"打折扣",必须拥有极强的拓扑支持才能进入最终排名。这就像侦探办案:一个在初始嫌疑人名单上完全没有记录的人,即使通过关系网络追踪到了他,也需要更充分的证据才能将其列为主要嫌疑人。
最终综合评分由三个成分加权合成:初始相关性得分(权重0.35,来自三路召回阶段)、拓扑支持得分(权重0.45,来自图传播阶段,乘以图支持因子)、引用重要性得分(权重0.20,基于最终候选集合中的引用分布重新计算)。三个成分的权重之和不超过1,最高分截断为1。系统最终返回得分最高的20篇论文,并附上详细的分数分解报告和基于路径的解释——告诉用户每篇论文是通过什么样的知识路径与查询关联起来的,提供透明可追溯的"认知地图"。整个检索过程可以在2分钟内完成,远快于需要多轮LLM迭代的深度搜索框架。
---
七、这张地图能做什么:六大应用场景全景展示
构建SciAtlas和开发检索算法,最终是为了服务于真实的科研需求。研究团队提出了六个具体的应用方向,展示了这套系统如何在自动化科研的完整闭环中发挥作用。
文献综述是最基础的应用场景。研究者只需输入一个研究方向作为查询,系统便能检索出最相关的论文集合。检索过程还支持个性化定制:如果希望优先返回顶级会议或期刊的论文,可以把期刊信息纳入论文重要性的计算;如果希望优先返回权威学者的研究,可以调高AUTHORED边中根据引用次数设定的权重;如果希望强调机构权威性,可以在AFFILIATED\_WITH边上根据机构声誉分配相应权重。检索完成后,得到的论文集合可以直接对接各种基于LLM的自动综述生成方法。
研究想法的定位与评估是一个更精细的应用场景,体现了SciAtlas在"你的想法有没有人做过"这个核心问题上的独特价值。用户输入一个研究想法或一篇草稿论文,系统检索出高度相关的论文集合,并将这些论文的全文分段。随后,LLM从输入想法中提取出动机、方法论、实验设计三个维度的具体主张,针对每个主张在检索到的段落中寻找支持或反驳证据,分析相似点与不同点。在论文里展示的运行示例中,输入的目标想法主张"主流的LLM-as-a-Judge方法将模型固有偏见固化为评估标准",系统成功找到了一篇证据论文中的相关段落,并精确识别出:两者的共同点是都指出LLM作为评判者存在可靠性问题,但差异在于目标想法强调的是未能模拟多视角评审的问题,而证据论文聚焦的是知识边界导致的误判问题。这种精细的相同点与差异点分析,对于研究者准确定位自己工作的创新边界极有价值。
研究想法的生成则是在文献检索的基础上,进一步让LLM合成新的研究方向。在对应的运行示例中,以"知识编辑"为查询词检索后,系统提出了"联邦与隐私保护知识编辑"这一新想法,并指出其新颖性在于将联邦学习的约束(数据去中心化、隐私保护、通信效率)引入知识编辑问题,这一组合此前尚无人探索。这类应用特别适合发掘跨学科交叉点,为此还可以特意放宽对"距离较远节点"的约束,让检索结果更具探索性和多样性。
研究趋势预测与想法生成的逻辑相似,但更强调论文的时间顺序和影响力。系统检索出一个研究方向下的代表性论文,按时间排序后交给LLM,让其梳理该方向的发展脉络,并聚焦于论文的讨论与局限性章节,识别待解决的关键问题,提出未来研究的可能方向。在示例中,针对"脉冲神经网络中的生物合理学习"这一方向,系统梳理出了从2006-2014年基础机制探索,到2015-2019年认知与序列学习,到2020-2022年系统框架开发,再到2023-2025年集成与效率优化的四阶段演进历程,并提出了五个未来研究方向。
相关学者检索只需把检索目标从论文换成作者节点,系统从图传播结果中提取作者节点分数,辅以作者引用次数作为筛选参考,并可根据作者在论文中的贡献位置(第一作者、通讯作者与其他作者之间)调整AUTHORED边的权重,确保检索到真正在该研究方向上有核心贡献的学者。
研究者学术轨迹梳理则是面向单个研究者的深度画像功能。给定一位学者的姓名,系统从知识图谱中提取其全部发表论文,必要时先对论文进行聚类(因为研究者可能同时活跃于多个方向),再由LLM在每个簇内分别总结,最后整合为统一的学术画像报告。在示例中(研究者姓名以"***"匿名处理),系统识别出该学者经历了三个研究阶段:2018-2023年的知识增强语言模型与信息抽取、2023-2026年的推理规划与智能体AI系统,以及2023-2026年的模型分析控制与对齐,展现出一条清晰的从应用导向到基础研究的学术演化轨迹。
---
八、当前的局限与未来的路
研究团队在报告中对SciAtlas当前的不足保持了相当的坦诚,并提出了具体的改进计划,这些局限性也值得读者了解。
目前SciAtlas主要通过Neo4j图数据库界面访问,进行二次开发的用户仍需自行编写Cypher查询语句。研究团队计划将常用功能封装为命令行接口(CLI),并为AI代理的自动化调用提供标准化的技能接口,实现一键加载。
知识覆盖范围方面,当前知识图谱以论文为核心,尚未纳入原子知识(即具体的定理、公式、实验结论等细粒度知识单元)、数据集和代码资源、实验经验等完整科研工作流所需的要素。如何获取这些更细粒度的知识并将其与论文建立关联,是研究团队明确的下一步方向。
评估体系方面,目前报告中展示的所有下游应用案例都是定性的运行示例,缺乏系统性的量化评估基准。研究团队计划基于SciAtlas开发专门的评测数据集,对AI科学家在各下游任务上的表现进行量化评估。
知识图谱的实时更新也是一个待解决的工程问题。当前的更新依赖人工定期执行脚本,研究团队计划构建基于OpenAlex每日更新API的自动实时更新机制,并已承诺开放知识图谱构建代码,支持用户自行维护本地部署的SciAtlas实例。
---
说到底,SciAtlas做的这件事,可以用一个很朴素的比喻来概括:它把原本存放在无数个孤立书架上的学术论文,重新组织成了一张可以被精确导航的城市地图,并为在这张地图上穿行的AI侦探配备了一套结合直觉(语义向量)与逻辑(图拓扑推理)的侦查方法。
这对自动化科研意味着什么?当AI代理不再需要靠反复"猜测"来建立知识联系,而是能够沿着确定性的拓扑路径追踪文献关联时,它产生幻觉的概率自然降低,推理的可解释性也大幅提升。与此同时,30亿条预计算的关系三元组意味着大量本来需要AI在推理时动态探索的知识,现在已经被显式编码进了地图结构,从而节省了大量推理成本。
当然,这张地图还远未完成——它覆盖的主要是英文论文,更新频率还需要进一步提高,细粒度知识的融合也有待推进。但作为一个已经运行的系统,SciAtlas提供了一条清晰可行的路径,说明人类和AI如何可能共同构建一个结构化的科学知识基础设施。有兴趣进一步了解技术细节的读者,可以通过arXiv编号2605.22878查阅完整的技术报告,研究团队也已在GitHub(zjunlp/SciAtlas)开放了知识图谱检索接口和各下游任务的代码。
---
Q&A
Q1:SciAtlas的关键词提取为什么要刻意避免论文专属名词?
A:关键词在SciAtlas中承担的是"桥梁"角色,用来连接不同论文之间的共同概念。如果保留"AlphaEvolve"这样只属于某一篇论文的专有名词,这个关键词节点就无法在其他论文中复用,等于在地图上插了一个孤立的钉子,对建立跨论文的拓扑关联毫无贡献。只有那些能在大量论文中反复出现的通用概念词汇,才能真正在知识图谱中形成密集的关联网络,让图遍历算法有路可走。
Q2:SciAtlas的检索结果和普通谷歌学术搜索有什么本质区别?
A:谷歌学术的搜索本质上是在比较查询文本与论文文本的"外观相似度",能找到关键词重叠度高或语义相似的论文,但无法推断论文之间深层的逻辑关联。SciAtlas的检索则会在找到初始相关论文后,沿着引用关系、关键词共现关系、合著关系等拓扑路径继续扩散,发现那些可能用词完全不同、表面上看起来无关,但实际上在知识网络中与查询主题紧密相连的论文,并给出具体的关联路径解释。
Q3:SciAtlas知识图谱的数据如何保持更新?
A:SciAtlas的主要数据来源OpenAlex提供每日更新的API接口,用户可以通过接口获取最新论文信息,按照SciAtlas的构建流程提取关键词、计算语义向量、建立实体关系,然后通过Neo4j的Cypher语言导入数据库。研究团队也会根据OpenAlex每两个月发布的变更文件定期执行整体更新,并计划未来开放一键导入脚本,支持用户在本地自行维护实时更新的知识图谱。
