当前位置: 首页 > news >正文

语义邻居

可以,直接用数字举例。

假设现在有一个 rare/specific GO term g,阈值是:

threshold = 0.07

也就是最终分数超过 0.07 才能被预测出来。


例子 1:简单概率平均为什么不够

目标 term g 自己的 direct score 很低:

s_direct(p,g) = 0.03

它的 4 个双曲 KNN 语义邻居分数是:

g1: 0.12
g2: 0.09
g3: 0.04
g4: 0.02

如果你直接做概率加权平均,假设权重是:

w = [0.4, 0.3, 0.2, 0.1]

那么:

s_knn = 0.4×0.12 + 0.3×0.09 + 0.2×0.04 + 0.1×0.02= 0.048 + 0.027 + 0.008 + 0.002= 0.085

然后如果融合:

s_final = 0.5×s_direct + 0.5×s_knn= 0.5×0.03 + 0.5×0.085= 0.0575

结果:

0.0575 < 0.07

还是过不了阈值。

所以简单平均的问题是:

邻居里虽然有高分,但是被低分邻居和 direct low score 稀释掉了。


例子 2:logit-level evidence boost 为什么更有效

现在不用概率平均,而是在 logit 空间 做。

概率转 logit:

logit(s) = log(s / (1-s))

目标 term:

s_direct = 0.03
l_direct = log(0.03 / 0.97) ≈ -3.48

邻居:

term score logit
g1 0.12 -1.99
g2 0.09 -2.31
g3 0.04 -3.18
g4 0.02 -3.89

这时候我们不平均概率,而是看邻居有没有比目标 term 更强的 evidence。

假设 KNN 聚合后得到:

l_knn ≈ -2.15

这个对应概率大概是:

sigmoid(-2.15) ≈ 0.104

然后做 residual promotion:

l_final = l_direct + α · ReLU(l_knn - l_direct)

如果这个 term 是 deep/rare term,给它较大的 gate:

α = 0.8

代入:

l_final = -3.48 + 0.8 × ReLU(-2.15 - (-3.48))= -3.48 + 0.8 × 1.33= -3.48 + 1.064= -2.416

转回概率:

s_final = sigmoid(-2.416) ≈ 0.082

结果:

0.082 > 0.07

这个 rare term 就被推过阈值了。


例子 3:为什么不会乱推高?

如果邻居其实也没信号,比如:

s_direct = 0.03
s_neighbors = [0.04, 0.03, 0.02, 0.01]

对应聚合后:

l_knn ≈ -3.30
l_direct ≈ -3.48

那么:

l_knn - l_direct = -3.30 - (-3.48) = 0.18

如果 α = 0.8:

l_final = -3.48 + 0.8×0.18= -3.336

转概率:

s_final = sigmoid(-3.336) ≈ 0.034

结果:

0.034 < 0.07

还是不会过阈值。

所以它不是无脑把所有 rare term 推高,而是:

只有邻居 evidence 明显强于目标 term 自身 evidence 时,才会提升。


例子 4:为什么 rare/deep term 更需要 gate?

假设同样的邻居 evidence:

l_direct = -3.48
l_knn = -2.15

对于 shallow/frequent term,gate 小:

α = 0.2

那么:

l_final = -3.48 + 0.2×1.33= -3.214
s_final = sigmoid(-3.214) ≈ 0.039

仍然不过阈值。

对于 deep/rare term,gate 大:

α = 0.8

刚才得到:

s_final ≈ 0.082

可以过阈值。

这说明:

deep/rare term 更允许从语义邻居借信号;
shallow/frequent term 主要相信 direct prediction,避免被邻居误导。


最终直观总结

原来的概率平均像这样:

目标 term 自己低分 0.03
邻居有一些信号 0.12 / 0.09
平均后只有 0.0575
还是低于阈值 0.07

新的 logit residual boost 是:

目标 term logit = -3.48
邻居 evidence logit = -2.15
deep/rare gate = 0.8
最终 score = 0.082
超过阈值

所以核心不是简单平滑,而是:

在双曲语义邻居出现强证据时,对 rare/deep term 做 logit-level evidence promotion。

对,这部分最应该学的就是“邻居语义支持权重”,而不是手工固定:

w(g,g') = softmax(-d_H(z_g,z_g'))

这个可以作为初始化,但最终最好让模型学:

对于目标 term g,哪些语义邻居 g' 真的能帮助预测当前蛋白 p


1. 不建议只用固定距离权重

固定双曲距离权重的逻辑是:

越近的 GO neighbor 权重越大

但问题是:

语义近 ≠ 对当前蛋白一定有用。

例如两个 GO term 在语义上很近,但对某个蛋白来说,一个是真实功能,另一个不是。
所以只靠距离会有噪声。


2. 更合理:学习 protein-conditioned neighbor weight

权重应该同时看三件事:

1. 目标 GO term g
2. 邻居 GO term g'
3. 当前蛋白 p

也就是:

w_p(g,g') = learned weight conditioned on protein p

公式可以写成:

r_p(g,g') = MLP([z_g, z_g', z_p, d_H(z_g,z_g'), s_direct(p,g')])

然后:

w_p(g,g') = softmax_{g'∈N(g)}(r_p(g,g'))

意思是:

模型自己判断这个邻居对当前蛋白有没有用。


3. 这样 Stage 3 的核心就清楚了

Stage 3 不只是 KNN 平滑,而是:

Protein-conditioned semantic neighbor weighting

也就是:

双曲 KNN 找候选邻居
↓
模型学习每个邻居对当前蛋白的贡献权重
↓
从可靠邻居聚合 evidence
↓
提升 rare/deep term 预测

这比固定 KNN 加权强很多。


4. 推荐最终形式

Step 1:直接预测

l_direct(p,g) = a_g - b_g d_H(z_p, z_g)

Step 2:KNN 候选邻居

N_H(g) = TopK by hyperbolic distance d_H(z_g,z_g')

Step 3:学习邻居权重

r_p(g,g') =
MLP([z_g, z_g', z_p, d_H(z_g,z_g'), l_direct(p,g')])
w_p(g,g') =
softmax_{g'∈N_H(g)} r_p(g,g')

Step 4:聚合邻居 evidence

l_knn(p,g) =
Σ_{g'∈N_H(g)} w_p(g,g') · l_direct(p,g')

或者更强一点用 LogSumExp:

l_knn(p,g) =
LogSumExp_{g'∈N_H(g)} [log w_p(g,g') + l_direct(p,g')]

Step 5:残差增强

l_final(p,g)
= l_direct(p,g)
+ α_g · ReLU(l_knn(p,g) - l_direct(p,g))

5. 这部分可以作为 Stage 3 的创新点

你可以把 Stage 3 命名为:

Protein-conditioned Hyperbolic KNN Evidence Aggregation

中文:

蛋白条件化的双曲 KNN 语义证据聚合

核心贡献就是:

不是简单按距离传播,而是先用双曲空间找语义邻居,再学习这些邻居对当前蛋白的有效性权重。


6. 最简短理解

固定距离权重回答的是:

哪些 GO term 在语义上离得近?

学习权重回答的是:

在当前蛋白上,哪些近邻真的能帮助预测目标 GO term?

所以你的直觉是对的:Stage 3 主要就应该学习这个邻居语义权重。

http://www.gsyq.cn/news/1482411.html

相关文章:

  • 【动态规划】删除并获得点数
  • 南京GEO优化落地实践:本地化技术体系与服务商能力解读 - 小艾信息发布
  • 德兴母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 达州母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • KLOGG日志分析工具深度解析:超高速日志探索的架构揭秘与性能突破
  • 光会写 Prompt 不够用了——AI Agent 时代,你需要懂 Context Engineering
  • 德阳母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 邓州母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 崇左母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 苏州火锅烤肉桌椅整套定制,慕和鑫酒店餐饮家具专业之选 - GrowthUME
  • 2026年 玻璃门锁五金/浴室夹/门吸配件/指纹锁机械锁厂家推荐榜:专业实力与稳定耐用口碑之选 - 品牌发掘
  • 调兵山母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 2026深圳正规猫犬舍前五强|高温高湿环境选宠避坑指南 - 萌宠俱乐部
  • 044、镜头脏污与异物检测:产线 AOI 检测方案与 ISP 脏污补偿
  • steamdeck插件 - -冷夜
  • 终极指南:如何快速下载加密m3u8视频流
  • 基于PLC的横式车库控制系统设计1(设计源文件+万字报告+讲解)(支持资料、图片参考_降重降ai)
  • Anthropic安全白皮书2|三级成熟度模型:你的AI智能体该配哪级安全?
  • 上海 GEO 优化全攻略:核心逻辑拆解 + 避坑指南 + 本土八家服务商深度测评 - 玖叁鹿
  • 2026年老字号的 烟台本地家常菜、老字号、特色菜餐厅排行:地道风味实测盘点 - 奔跑123
  • 巢湖母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 普宁罗曼拉全屋定制柯奕光|一个细节控老板如何把展厅效果做到家里 - 品牌观察
  • 3步彻底移除Windows Defender:终极性能优化方案
  • 3个理由让你重新思考电视上网体验:TV Bro如何解决大屏浏览的核心痛点
  • Legacy iOS Kit终极指南:3步让旧款iPhone/iPad重获新生
  • 大同母婴除甲醛CMA甲醛检测治理公司深度测评:绿呼吸环保稳居榜首 - 一修哥咨询
  • 华为光猫配置解密工具完整指南:轻松解密XML和CFG配置文件
  • 考研数学必看:1^∞型极限别再乱用等价无穷小了,浙大矿爷都强调的易错点
  • imx6ull开发板Buildroot安装: ffmpeg,x264,Mosquitto,v4l-utils,v4l2grab,jpeg-turbo,tslib
  • CentOS 8/9服务器上,Docker容器端口映射后外网能访问?可能是firewalld重启惹的祸