当前位置：首页 > news >正文

语义邻居

news 2026/6/7 22:11:50

可以，直接用数字举例。

假设现在有一个 rare/specific GO term g，阈值是：

threshold = 0.07

也就是最终分数超过 0.07 才能被预测出来。

例子 1：简单概率平均为什么不够

目标 term g 自己的 direct score 很低：

s_direct(p,g) = 0.03

它的 4 个双曲 KNN 语义邻居分数是：

g1: 0.12
g2: 0.09
g3: 0.04
g4: 0.02

如果你直接做概率加权平均，假设权重是：

w = [0.4, 0.3, 0.2, 0.1]

那么：

s_knn = 0.4×0.12 + 0.3×0.09 + 0.2×0.04 + 0.1×0.02= 0.048 + 0.027 + 0.008 + 0.002= 0.085

然后如果融合：

s_final = 0.5×s_direct + 0.5×s_knn= 0.5×0.03 + 0.5×0.085= 0.0575

结果：

0.0575 < 0.07

还是过不了阈值。

所以简单平均的问题是：

邻居里虽然有高分，但是被低分邻居和 direct low score 稀释掉了。

例子 2：logit-level evidence boost 为什么更有效

现在不用概率平均，而是在 logit 空间 做。

概率转 logit：

logit(s) = log(s / (1-s))

目标 term：

s_direct = 0.03
l_direct = log(0.03 / 0.97) ≈ -3.48

邻居：

term	score	logit
g1	0.12	-1.99
g2	0.09	-2.31
g3	0.04	-3.18
g4	0.02	-3.89

这时候我们不平均概率，而是看邻居有没有比目标 term 更强的 evidence。

假设 KNN 聚合后得到：

l_knn ≈ -2.15

这个对应概率大概是：

sigmoid(-2.15) ≈ 0.104

然后做 residual promotion：

l_final = l_direct + α · ReLU(l_knn - l_direct)

如果这个 term 是 deep/rare term，给它较大的 gate：

α = 0.8

代入：

l_final = -3.48 + 0.8 × ReLU(-2.15 - (-3.48))= -3.48 + 0.8 × 1.33= -3.48 + 1.064= -2.416

转回概率：

s_final = sigmoid(-2.416) ≈ 0.082

结果：

0.082 > 0.07

这个 rare term 就被推过阈值了。

例子 3：为什么不会乱推高？

如果邻居其实也没信号，比如：

s_direct = 0.03
s_neighbors = [0.04, 0.03, 0.02, 0.01]

对应聚合后：

l_knn ≈ -3.30
l_direct ≈ -3.48

那么：

l_knn - l_direct = -3.30 - (-3.48) = 0.18

如果 α = 0.8：

l_final = -3.48 + 0.8×0.18= -3.336

转概率：

s_final = sigmoid(-3.336) ≈ 0.034

结果：

0.034 < 0.07

还是不会过阈值。

所以它不是无脑把所有 rare term 推高，而是：

只有邻居 evidence 明显强于目标 term 自身 evidence 时，才会提升。

例子 4：为什么 rare/deep term 更需要 gate？

假设同样的邻居 evidence：

l_direct = -3.48
l_knn = -2.15

对于 shallow/frequent term，gate 小：

α = 0.2

那么：

l_final = -3.48 + 0.2×1.33= -3.214
s_final = sigmoid(-3.214) ≈ 0.039

仍然不过阈值。

对于 deep/rare term，gate 大：

α = 0.8

刚才得到：

s_final ≈ 0.082

可以过阈值。

这说明：

deep/rare term 更允许从语义邻居借信号；
shallow/frequent term 主要相信 direct prediction，避免被邻居误导。

最终直观总结

原来的概率平均像这样：

目标 term 自己低分 0.03
邻居有一些信号 0.12 / 0.09
平均后只有 0.0575
还是低于阈值 0.07

新的 logit residual boost 是：

目标 term logit = -3.48
邻居 evidence logit = -2.15
deep/rare gate = 0.8
最终 score = 0.082
超过阈值

所以核心不是简单平滑，而是：

在双曲语义邻居出现强证据时，对 rare/deep term 做 logit-level evidence promotion。

对，这部分最应该学的就是“邻居语义支持权重”，而不是手工固定：

w(g,g') = softmax(-d_H(z_g,z_g'))

这个可以作为初始化，但最终最好让模型学：

对于目标 term g，哪些语义邻居 g' 真的能帮助预测当前蛋白 p。

1. 不建议只用固定距离权重

固定双曲距离权重的逻辑是：

越近的 GO neighbor 权重越大

但问题是：

语义近 ≠ 对当前蛋白一定有用。

例如两个 GO term 在语义上很近，但对某个蛋白来说，一个是真实功能，另一个不是。
所以只靠距离会有噪声。

2. 更合理：学习 protein-conditioned neighbor weight

权重应该同时看三件事：

1. 目标 GO term g
2. 邻居 GO term g'
3. 当前蛋白 p

也就是：

w_p(g,g') = learned weight conditioned on protein p

公式可以写成：

r_p(g,g') = MLP([z_g, z_g', z_p, d_H(z_g,z_g'), s_direct(p,g')])

然后：

w_p(g,g') = softmax_{g'∈N(g)}(r_p(g,g'))

意思是：

模型自己判断这个邻居对当前蛋白有没有用。

3. 这样 Stage 3 的核心就清楚了

Stage 3 不只是 KNN 平滑，而是：

Protein-conditioned semantic neighbor weighting

也就是：

双曲 KNN 找候选邻居
↓
模型学习每个邻居对当前蛋白的贡献权重
↓
从可靠邻居聚合 evidence
↓
提升 rare/deep term 预测

这比固定 KNN 加权强很多。

4. 推荐最终形式

Step 1：直接预测

l_direct(p,g) = a_g - b_g d_H(z_p, z_g)

Step 2：KNN 候选邻居

N_H(g) = TopK by hyperbolic distance d_H(z_g,z_g')

Step 3：学习邻居权重

r_p(g,g') =
MLP([z_g, z_g', z_p, d_H(z_g,z_g'), l_direct(p,g')])

w_p(g,g') =
softmax_{g'∈N_H(g)} r_p(g,g')

Step 4：聚合邻居 evidence

l_knn(p,g) =
Σ_{g'∈N_H(g)} w_p(g,g') · l_direct(p,g')

或者更强一点用 LogSumExp：

l_knn(p,g) =
LogSumExp_{g'∈N_H(g)} [log w_p(g,g') + l_direct(p,g')]

Step 5：残差增强

l_final(p,g)
= l_direct(p,g)
+ α_g · ReLU(l_knn(p,g) - l_direct(p,g))

5. 这部分可以作为 Stage 3 的创新点

你可以把 Stage 3 命名为：

Protein-conditioned Hyperbolic KNN Evidence Aggregation

中文：

蛋白条件化的双曲 KNN 语义证据聚合

核心贡献就是：

不是简单按距离传播，而是先用双曲空间找语义邻居，再学习这些邻居对当前蛋白的有效性权重。

6. 最简短理解

固定距离权重回答的是：

哪些 GO term 在语义上离得近？

学习权重回答的是：

在当前蛋白上，哪些近邻真的能帮助预测目标 GO term？

所以你的直觉是对的：Stage 3 主要就应该学习这个邻居语义权重。

查看全文

http://www.gsyq.cn/news/1482411.html

【动态规划】删除并获得点数

南京GEO优化落地实践：本地化技术体系与服务商能力解读 - 小艾信息发布

德兴母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

达州母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

KLOGG日志分析工具深度解析：超高速日志探索的架构揭秘与性能突破

光会写 Prompt 不够用了——AI Agent 时代，你需要懂 Context Engineering

德阳母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

邓州母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

崇左母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

苏州火锅烤肉桌椅整套定制，慕和鑫酒店餐饮家具专业之选 - GrowthUME

2026年玻璃门锁五金/浴室夹/门吸配件/指纹锁机械锁厂家推荐榜：专业实力与稳定耐用口碑之选 - 品牌发掘

调兵山母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

2026深圳正规猫犬舍前五强｜高温高湿环境选宠避坑指南 - 萌宠俱乐部

044、镜头脏污与异物检测：产线 AOI 检测方案与 ISP 脏污补偿

steamdeck插件 - -冷夜

终极指南：如何快速下载加密m3u8视频流

基于PLC的横式车库控制系统设计1(设计源文件+万字报告+讲解)（支持资料、图片参考_降重降ai）

Anthropic安全白皮书2｜三级成熟度模型：你的AI智能体该配哪级安全？

上海 GEO 优化全攻略：核心逻辑拆解 + 避坑指南 + 本土八家服务商深度测评 - 玖叁鹿

2026年老字号的烟台本地家常菜、老字号、特色菜餐厅排行：地道风味实测盘点 - 奔跑123

巢湖母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

普宁罗曼拉全屋定制柯奕光｜一个细节控老板如何把展厅效果做到家里 - 品牌观察

3步彻底移除Windows Defender：终极性能优化方案

3个理由让你重新思考电视上网体验：TV Bro如何解决大屏浏览的核心痛点

Legacy iOS Kit终极指南：3步让旧款iPhone/iPad重获新生

大同母婴除甲醛CMA甲醛检测治理公司深度测评：绿呼吸环保稳居榜首 - 一修哥咨询

华为光猫配置解密工具完整指南：轻松解密XML和CFG配置文件

考研数学必看：1^∞型极限别再乱用等价无穷小了，浙大矿爷都强调的易错点

imx6ull开发板Buildroot安装: ffmpeg,x264,Mosquitto,v4l-utils,v4l2grab,jpeg-turbo,tslib

CentOS 8/9服务器上，Docker容器端口映射后外网能访问？可能是firewalld重启惹的祸