当前位置：首页 > news >正文

OHiFormer：基于结构相对位置编码的Transformer模型实现UI屏幕摘要

news 2026/5/26 22:07:23

1. 项目概述当Transformer遇见UI——屏幕摘要的挑战与机遇在移动应用开发与用户体验设计的日常工作中我们常常面临一个看似简单却极其繁琐的任务如何向用户、测试人员或文档编写者清晰、准确地描述一个手机屏幕界面UI的内容与功能传统方法依赖人工编写不仅耗时耗力而且难以保证一致性。随着应用界面日益复杂元素数量动辄上百这个痛点愈发明显。屏幕摘要Screen Summarization任务应运而生它旨在自动生成简洁的文本描述概括屏幕的核心内容和功能。这对于提升视障用户的可访问性通过屏幕阅读器、加速应用文档如用户手册的生成、乃至辅助自动化测试脚本的编写都具有巨大的实用价值。然而将自然语言生成技术直接套用到UI屏幕上会遇到一个根本性的挑战UI屏幕并非普通的图像或文本序列而是一个具有严格层次化结构的多模态对象集合。每个UI元素如按钮、文本框、图片不仅包含视觉外观图像切片、文本标签还拥有在视图层级树View Hierarchy中的精确位置边界框和父子关系。早期的尝试如Screen2Words模型虽然开创性地将UI摘要任务形式化但其采用绝对位置编码如节点的深度、前序索引来表征结构这种方法存在天然局限——它只告诉模型“某个元素在树中的哪个绝对位置”却无法直接表达“这个按钮是那个文本输入框的子控件”或“这两个开关是并列关系”等关键的层次化依赖关系。这就像只给你一张公司通讯录只有姓名和工号却不告诉你汇报关系你很难理解整个组织的运作逻辑。正是在这样的背景下OHiFormerObject-wise Hierarchical Dependency-based Transformer模型被提出。它的核心思想非常直观且有力将UI屏幕上的每个对象视为自然语言处理中的一个“词元”Token然后利用Transformer强大的自注意力机制来建模这些对象之间的相互关系。但关键在于它没有使用标准的绝对位置编码而是创新性地引入了结构相对位置编码专门设计了一种名为OHi-Attention的注意力机制将UI对象间的父子、兄弟等层级关系直接注入到注意力权重的计算中。这样一来模型在“阅读”UI时不仅能“看到”每个元素是什么还能“理解”它们之间是如何组织、关联的从而生成更符合逻辑、更精准的摘要。我曾在多个涉及UI自动化理解和文档生成的项目中深刻体会到忽略结构关系所带来的问题比如生成的描述会混淆主次功能或无法正确关联相关的UI元素组。OHiFormer的思路正是从工程实践痛点出发对Transformer这一“万能骨架”进行的一次精准“外科手术”使其能更好地消化UI这种特殊的“结构化多模态数据”。接下来我将深入拆解这个模型的每一个技术细节、实现要点并分享在实际复现和应用此类模型时可能遇到的“坑”与应对技巧。2. 核心思路拆解为什么是“结构相对位置编码”要理解OHiFormer的创新之处我们必须先厘清UI数据结构的特点以及现有方法的不足。一个UI屏幕在开发者眼中远不止是一张截图Screenshot。它背后对应着一份结构化的元数据通常是一个JSON文件描述了一个视图层级树。树上的每个节点对应一个UI对象节点属性包括其类名如android.widget.Button、资源ID如com.example:id/login_button、屏幕上显示的文本、以及一个精确的边界框坐标[left, top, right, bottom]。2.1 绝对位置编码的局限先前的主流方法如Screen2Words采用了一种三维坐标[depth, preorder_index, postorder_index]来表示一个节点在树中的绝对位置。深度节点到根节点的距离。前序索引在深度优先搜索DFS前序遍历中访问该节点的顺序。后序索引在DFS后序遍历中访问该节点的顺序。这种方法为每个节点分配了一个唯一的、可学习的嵌入向量。然而其问题在于无法直接表达关系两个具有父子关系的节点它们的绝对位置向量在嵌入空间中的距离未必比两个毫无关系的节点更近。模型需要从大量数据中隐式地学习这种关系效率低下且不直观。泛化能力弱对于一棵新的、未见过的UI树即使其结构模式如一个列表项内包含一个图标和一段文字很常见模型也需要重新适应其绝对位置编码因为索引值完全不同了。对复杂UI不友好当UI对象数量很多超过300个时树结构变得庞大而复杂。绝对位置编码难以让模型聚焦于局部紧密相关的对象组容易导致生成的摘要过于笼统或遗漏关键细节。这就像用经纬度坐标绝对位置来描述城市中建筑的关系虽然精确但无法直接告诉你“A大厦是B公司的总部而C餐厅在A大厦的一楼”相对关系。2.2 结构相对位置编码的优势OHiFormer的灵感来源于代码摘要Code Summarization领域。在代码的抽象语法树AST中节点间的结构关系如父子、兄弟对于理解程序逻辑至关重要。研究者们发现将节点间的最短路径距离或相对层级关系编码进Transformer的注意力机制能显著提升模型性能。OHiFormer将这一思想迁移到UI领域。它不再关注节点在整棵树中的“绝对地址”而是关注任意两个节点之间的“相对关系”。具体来说它定义了一个层次化依赖矩阵H。对于树中的任意两个对象oi和oj如果oi是oj的子节点则H(i, j) 2。如果oi是oj的父节点则H(i, j) 1。其他情况无直接父子关系H(i, j) 0。这个简单的0/1/2矩阵直接、显式地刻画了UI对象间最核心的两种结构关系。随后这个矩阵被映射为一个可学习的嵌入表ER从而得到结构相对位置编码R。在计算注意力时这个编码会与查询Q和键K进行交互从而让注意力分数不仅基于对象的内容相似性还基于它们的结构关联性。这么做的工程意义何在归纳偏置Inductive Bias的引入我们明确告诉模型“UI对象是有层次结构的”这相当于为模型提供了一个强大的先验知识让它不用从零开始学习这个规律从而加速训练提升在小数据集上的性能。更好的泛化性无论树有多大节点索引如何变化“父子”、“兄弟”这种关系定义是稳定的。模型学到的“父子关系应具有较高注意力”这一模式可以很容易地迁移到新的、结构类似的UI上。聚焦局部上下文注意力机制会天然地给具有直接父子或兄弟关系的对象分配更高的权重这使得模型在生成描述时能更好地将相关元素组合在一起描述例如“一个包含用户名和密码输入框的登录表单”。2.3 OHiFormer的整体架构蓝图理解了核心思路后我们来看OHiFormer的整体工作流程它遵循了经典编码器-解码器Encoder-Decoder框架但每个环节都针对UI数据做了定制对象嵌入对于屏幕上的每个UI对象分别提取其多模态特征。图像根据边界框裁剪出对象区域缩放至64x64像素通过预训练的ResNet-18提取视觉特征。文本提取对象显示的文本和资源IDResource-id通过GloVe词嵌入进行编码并通过求和池化得到固定维度的文本特征。位置使用可学习的傅里叶特征编码方法借鉴VUT模型对边界框坐标[l, t, r, b]进行编码得到空间位置特征。融合将图像特征和文本特征拼接后投影再与位置特征相加最终形成每个对象的统一嵌入向量。所有对象的嵌入按顺序排列构成UI的序列化表示X。OHiFormer编码器这是模型的核心。编码器接收序列X并利用OHi-Attention机制进行多层变换。OHi-Attention在标准自注意力计算(QK^T)/√dk的基础上额外加上了两项(QR^T)/√dk和(KR^T)/√dk。这两项将之前计算好的结构相对位置编码R注入其中使得注意力权重的计算同时考虑了内容相关性和结构相关性。Transformer解码器一个标准的Transformer解码器以自回归的方式根据编码器输出的上下文表示逐个生成摘要词汇。这个流程清晰地展示了如何将多模态、结构化的UI数据“翻译”成一句流畅的自然语言描述。接下来我们将进入实操环节看看如何具体实现这些步骤。3. 实操要点与核心环节实现理论清晰后实现是关键。下面我将结合论文细节和工程经验拆解OHiFormer实现中的核心环节、参数选择以及需要注意的陷阱。3.1 数据预处理与对象嵌入生成这是整个流程的第一步也是最容易出错的环节。UI的原始数据通常来自Android的uiautomator或iOS的XCUITest格式为视图层级树JSON。实操步骤解析视图层级树你需要一个解析器来遍历JSON树提取每个节点的属性。关键字段包括class,text,resource-id,bounds边界框。注意有些节点可能是不可见的visibilitygone或尺寸为0这些节点通常需要过滤掉因为它们不对应屏幕上的实际元素。构建对象列表遍历后你得到一个UI对象列表O {o1, o2, ..., on}。每个对象oi的属性集合为P {p_image, p_text, p_rid, p_bbox}。图像裁剪与处理边界框处理bounds格式通常是[x1, y1, x2, y2]需确保坐标在屏幕范围内。有时坐标会超出截图尺寸需要进行clamp操作。裁剪与缩放使用PIL或OpenCV根据边界框从屏幕截图中裁剪出对象区域。这里有一个重要技巧直接缩放小区域到64x64可能导致严重失真。论文中采用ResNet-18其输入是3x64x64。对于文本按钮等小对象建议先将其粘贴到一个64x64的空白画布中央再进行归一化这比直接拉伸效果更好。特征提取加载一个在ImageNet上预训练的ResNet-18移除最后的全连接层使用其全局平均池化后的输出512维。然后通过一个线性层投影到指定的嵌入维度d论文中为128。文本与资源ID处理分词与截断对text和resource-id字段进行分词或按字符处理并截断或填充到最大长度l论文设为10。词嵌入使用预训练的GloVe词向量如glove.6B.100d。对于OOV词使用随机初始化或零向量。注意resource-id通常像com.example:id/button_ok包含路径信息可以按/和_分割后再嵌入能更好地捕捉语义。池化对一个对象内多个词的嵌入向量进行求和池化得到该对象文本侧的统一向量128维。然后将text和resource-id的向量拼接256维再通过一个线性层投影回128维得到最终的文本特征e_text。边界框编码论文采用了VUT中的可学习傅里叶特征方法。这是一种将连续坐标映射到高维空间的有效技术比简单的线性投影更能捕捉空间周期性。具体实现时可以将[l, t, r, b]四个坐标值分别进行傅里叶特征映射使用sin/cos函数和可学习频率参数然后拼接起来再通过一个线性层得到128维的位置特征e_bbox。特征融合将图像特征e_image和文本特征e_text在特征维度上拼接256维通过一个线性层W_F投影到128维。最后将投影后的特征与位置特征e_bbox相加X concat(e_image, e_text) * W_F e_bbox。这个“相加”操作是关键它将空间位置信息直接注入到每个对象的融合特征中为后续的结构感知注意力提供基础。注意事项多模态特征的对齐至关重要。确保图像、文本、位置特征的嵌入维度d一致。在训练初期由于文本和图像模态差异巨大融合后的特征可能不稳定。可以考虑在投影层后加入LayerNorm或者对图像/文本特征分别进行归一化后再拼接有助于训练收敛。3.2 层次化依赖矩阵与OHi-Attention实现这是OHiFormer的灵魂所在实现时需要格外小心。实操步骤构建依赖矩阵H输入是视图层级树每个节点对应一个UI对象索引。你需要实现一个函数对于任意两个节点索引i和j判断它们在树中的关系。高效实现技巧在预处理时为每个节点记录其父节点索引。构建H矩阵时对于一个n x n的矩阵朴素的双重循环复杂度是O(n²)。当n很大时如超过500这会成为性能瓶颈。可以利用稀疏矩阵格式如COO来存储因为H中非零元素表示直接父子关系非常少。或者在计算注意力时动态计算关系而不是构建完整矩阵。论文中定义了H(i,j)2表示i是j的子节点1表示i是j的父节点。注意这是非对称的即H(i,j)不一定等于H(j,i)这正好符合父子关系的方向性。生成结构相对位置编码R定义一个可学习的嵌入层self.struct_embed nn.Embedding(3, d)。因为H中的值只有0, 1, 2三种。将矩阵H元素值为0,1,2作为索引输入嵌入层得到R其形状为[n, n, d]。R[i, j, :]就是一个d维向量表示对象i相对于对象j的结构位置编码。实现OHi-Attention标准的多头注意力计算为Attention(Q, K, V) softmax( (QK^T) / √dk ) V。OHi-Attention的修改如下# 假设 Q, K 形状为 [batch, heads, n, d_k], R 形状为 [batch, n, n, d] 或 [n, n, d] # 需要将R投影到与Q/K相同的head空间或者更简单的方法将Q/K投影到d维与R交互 # 论文中的公式是softmax( (QK^T QR^T KR^T) / √dk ) V # 其中 R 是结构编码。QR^T 和 KR^T 需要维度对齐。 # 一种实现方式是将R通过一个线性层投影到 d_k 维度得到 R_k然后计算 attn_scores torch.matmul(Q, K.transpose(-2, -1)) # [b, h, n, n] # 计算 QR^T 项Q是[b, h, n, d_k], R是[b, n, n, d] - 需要将R变换并广播 # 我们可以将R视为与head无关先投影R_proj linear(R) # [b, n, n, d_k] # 然后计算: qr_term torch.matmul(Q, R_proj.transpose(-2, -1)) # [b, h, n, n] # 同理计算 kr_term torch.matmul(K, R_proj.transpose(-2, -1)) # 最终 attn_scores (attn_scores qr_term kr_term) / math.sqrt(d_k) attn_weights F.softmax(attn_scores, dim-1) output torch.matmul(attn_weights, V)维度对齐的陷阱这是实现中最容易出错的地方。确保QR^T和KR^T计算后的张量形状与QK^T一致都是[batch, heads, n, n]。通常的做法是将R从[n, n, d]通过一个线性层投影到[n, n, d_k]然后在head维度上进行广播。梯度流确保结构嵌入层self.struct_embed的参数能够通过QR^T和KR^T项接收到梯度从而在训练中学习到有意义的相对位置表示。实操心得在初次实现时可以先忽略QR^T和KR^T项只实现标准注意力确保模型能正常训练并过拟合一个小数据集。然后再加入结构项观察验证集指标是否有提升。同时可以可视化训练后的self.struct_embed.weight看看模型为“父子”(1)、“子父”(2)、“无关”(0)这三种关系学到了什么样的向量这有助于理解模型是否真的利用了结构信息。3.3 模型训练与解码策略模型搭建好后训练策略同样重要。训练配置要点基于论文模型尺寸4层编码器4层解码器8个注意力头嵌入维度d128。这是一个较小的模型适合在单张消费级GPU如RTX 3080 10G上进行实验。优化器Adam初始学习率5e-5。这是一个比较小的学习率因为使用了预训练的ResNet和GloVe需要微调。正则化Dropout比率设为0.2用于防止过拟合。批大小仅为4。这是因为UI序列长度n对象数量可变且可能很长导致内存占用大。如果GPU内存不足可以考虑梯度累积。早期停止在验证集性能连续30个epoch不提升时停止训练最大epoch为100。损失函数标准的交叉熵损失用于自回归语言建模。解码策略在测试阶段使用集束搜索束宽为4。集束搜索是一种启发式图搜索算法在每一步保留概率最高的k个候选序列能比贪婪搜索获得更好的结果。长度惩罚论文未提及但在实践中为集束搜索加上长度归一化如除以生成长度的α次方α通常取0.6-0.7可以避免模型倾向于生成过短的句子。数据与词汇表使用Screen Summarization数据集需按应用划分训练、验证、测试集防止数据泄露。构建词汇表时只保留出现次数大于5的单词低频词用unk代替。总词汇量约10000包括特殊标记start,end,pad。4. 效果评估、问题排查与深度分析模型训练完成后我们需要科学地评估其性能并理解其内部工作机制。论文提供了详实的实验这里我们结合实践进行解读。4.1 性能评估与对比分析论文使用BLEU、ROUGE-L和CIDEr作为评估指标。这些指标各有侧重BLEU侧重n-gram精度衡量生成摘要与参考摘要表面词的重合度。BLEU-1到BLEU-4分别计算1到4元组的精度。ROUGE-L基于最长公共子序列能更好地捕捉句子结构的相似性。CIDEr通过TF-IDF加权强调生成摘要应包含那些在参考摘要中重要频繁出现且在其他摘要中不常见具有区分度的词汇对摘要的信息含量和多样性更敏感。OHiFormer的优势体现从表1结果看OHiFormer在CIDEr指标上领先幅度最大17.58%。这说明OHiFormer生成的摘要不仅用词准确BLEU高而且能生成更多样化、信息更丰富的描述。这正是因为结构相对位置编码帮助模型更好地理解了UI的功能分组。例如对于一个设置页面模型能识别出“声音设置”区块包含静音开关、音量滑块等子对象是一个整体从而生成“Sound settings panel with mute switch and volume slider”这样具体、信息量大的句子而不是泛泛的“A page with many switches and sliders”。与其它结构编码方法的对比表2论文对比了多种将结构信息注入Transformer的方法Embed-3DScreen2Words的方法使用绝对位置深度、前序、后序索引的三维坐标嵌入。Learnable-FourierMLPVUT的方法将上述3D坐标映射到傅里叶空间。SPR-abs / SPR-rel来自机器翻译领域的方法分别使用节点深度的绝对差和相对差作为结构编码。OHiFormer基于父子关系在多数指标上胜出。这证明了对于UI这种强交互、组件化的结构直接建模父子依赖关系比单纯使用深度距离更有效。父节点通常代表容器如LinearLayout子节点才是具体功能项这种关系直接对应了“包含”语义对摘要生成至关重要。4.2 可视化分析与可解释性论文通过可视化编码器最后一层几个注意力头的热力图提供了宝贵的模型可解释性分析图8。这是我们理解模型“看到了什么”的关键。如何解读注意力热力图热力图的横纵轴都是UI对象索引。颜色越亮如红色表示在生成当前上下文表示时该行对象作为Query对位列对象作为Key的关注度越高。从热力图中我们能学到什么关注关键对象热力图显示模型对包含关键词如“language”、“choose”的对象图8中对象17, 18, 26, 27给予了高度关注。这说明模型成功地将视觉/文本特征与摘要任务关联了起来。捕捉层级路径热力图中可见清晰的“注意力路径”。例如从对象17可能是“English”选项到其祖先节点对象0, 1, 2, 5, 9的注意力权重较高。这直观地展示了OHi-Attention如何沿着视图树的路径传播信息将叶子节点的具体内容与其所在的上下文容器关联起来。识别兄弟关系对象{17,18}和{26,27}对同一组祖先节点表现出相似的注意力模式。这表明模型识别出它们是兄弟节点共享相同的父容器在语义上属于同一类别或同一功能区。实操建议在你自己的实现中一定要加入注意力可视化工具。这不仅有助于调试例如检查模型是否关注了无关背景更能让你直观感受结构编码是否生效。如果OHi-Attention工作正常你应该能看到比标准注意力更清晰、更聚焦于结构相关对象的注意力模式。4.3 常见问题与排查指南在复现或应用OHiFormer时你可能会遇到以下典型问题问题1模型性能不佳生成的摘要泛泛而谈如“这是一个有很多按钮的屏幕”。可能原因A结构编码未生效。排查检查依赖矩阵H的构建逻辑是否正确。打印几个样本的H矩阵手动验证父子关系是否对应。可视化注意力热力图看是否有关注层级路径的模式。解决确保QR^T和KR^T项被正确加入注意力分数计算并且其梯度在反向传播中流通。可以尝试增大结构嵌入的初始学习率或单独为其设置一个更高的学习率。可能原因B多模态特征融合不当。排查分别检查图像、文本、位置分支的输出特征。它们的尺度均值、方差是否差异巨大在融合前进行层归一化LayerNorm可能会有帮助。解决尝试不同的融合方式例如拼接后接更深的MLP或者使用门控机制Gating Mechanism动态调整图像和文本特征的贡献。可能原因C数据噪声大。排查UI数据中可能存在大量无文本、无意义或重复的对象如不可见的布局视图。这些噪声对象会干扰模型学习。解决在预处理阶段进行更激进的过滤。例如过滤掉text和resource-id都为空、或面积过小、或位于屏幕边缘不可交互的对象。问题2训练速度慢内存占用高。可能原因A序列长度n过大。排查统计数据集中UI对象数量的分布。Transformer的注意力计算复杂度是O(n²)当n很大时500计算和内存开销剧增。解决对象过滤同问题1C。序列截断设定一个最大对象数如200只保留前N个对象可按面积、或按在树中的深度排序。使用稀疏注意力OHi-Attention中的结构矩阵H本身是稀疏的只有直接父子关系非零。可以尝试实现稀疏版的注意力计算只计算H中非零位置对应的注意力分数能极大降低计算量。可能原因B批大小太小。解决使用梯度累积。例如设置实际批大小为4但每4个step才更新一次梯度累积步数为4这相当于模拟批大小为16的训练效果能提高训练稳定性但不会增加单步内存消耗。问题3在嘈杂/不完整的屏幕截图如加了高斯噪声上性能下降严重。分析论文的噪声注入实验图7表明所有模型的性能都会下降但OHiFormer下降幅度最小显示了其鲁棒性。这是因为OHiFormer不仅依赖图像模态还严重依赖文本和结构信息。即使图像模糊只要视图层级树元数据是完整的模型依然能通过文本和结构关系推断出大量信息。实践启示在实际应用中如果屏幕截图质量不可控如不同设备截图压缩率不同确保获取高质量的视图层级元数据比获取高清截图可能更重要。模型的多模态特性使其对单一模态的损坏有一定容错能力。5. 超越论文扩展思路与工程化思考OHiFormer提供了一个强大的基线模型但在实际产品化或应对更复杂场景时还有诸多可以探索和改进的方向。5.1 模型扩展与改进引入视觉骨干网络预训练论文使用ImageNet预训练的ResNet-18。可以尝试使用在更大规模视觉-语言数据集如LAION上预训练的CLIP ViT作为图像编码器。CLIP的视觉特征本身就和文本语义空间对齐可能对理解UI中图标与文本的对应关系更有帮助。处理动态与交互式UI当前模型处理的是静态屏幕快照。真实的UI是动态的有状态变化如按钮点击后变色、列表展开。可以考虑将UI状态变化序列作为输入使用循环或时序Transformer来建模动态过程生成如“点击搜索按钮后出现包含以下结果的列表...”的摘要。融合屏幕流信息一个应用由多个屏幕组成。可以引入图神经网络GNN或记忆网络建模屏幕之间的跳转关系生成更连贯、更具任务导向的多屏幕摘要。解耦结构与内容编码当前方法将结构编码R与内容Q/K交互。可以探索更解耦的方式例如使用一个单独的结构感知模块来生成对象关系的权重再与内容注意力权重相乘。5.2 工程落地考量推理速度优化对于需要实时生成摘要的场景如辅助屏幕阅读推理速度至关重要。模型轻量化考虑使用更小的嵌入维度、更少的层数或使用知识蒸馏将大模型的能力迁移到小模型上。缓存机制对于常见的、结构化的UI组件如标准Material Design按钮、iOS导航栏可以预计算其摘要模板模型只需填充具体内容如按钮文字大幅减少计算。领域适应与少样本学习你的应用可能涉及大量特定领域的UI如金融交易界面、工业控制面板。收集大量标注数据成本高昂。利用无监督数据可以收集大量未标注的UI截图和层级数据进行自监督预训练例如掩码对象预测、对比学习。提示学习为OHiFormer的输入添加可学习的提示向量Prompt在少量标注数据上微调这些提示而不是整个模型实现高效领域适应。评估指标的局限性BLEU/ROUGE等基于n-gram重叠的指标有时无法准确反映摘要的事实准确性和功能完整性。一个摘要可能BLEU得分高但错误描述了某个按钮的功能。人工评估在关键项目中必须引入人工评估制定详细的评估标准如信息完整性、准确性、流畅度、简洁性。任务导向评估将生成的摘要用于下游任务如基于摘要自动执行UI操作以下游任务的成功率作为最终评估标准更具说服力。5.3 一个简单的实践建议如果你正准备尝试将OHiFormer或类似技术应用于实际项目我的建议是从简单开始快速迭代。不要一开始就追求复现论文中的所有细节。可以先搭建一个简化版使用标准的Transformer编码器-解码器。输入只使用对象的GloVe文本嵌入和边界框的简单线性编码忽略图像。在Screen Summarization数据集的一个子集上训练验证流水线是否通畅。在基线模型能工作后再逐步加入图像模态ResNet特征。绝对位置编码3D坐标。最后替换为OHi-Attention。这种渐进式的方法能帮助你隔离问题清晰地看到每一项改进如图像、结构编码带来的实际收益。同时密切关注注意力可视化它是你理解模型内部运作、诊断问题的最有力工具。屏幕摘要是一个充满挑战又极具应用价值的领域。OHiFormer通过巧妙地引入结构相对位置编码为Transformer理解UI的复杂结构打开了一扇新的大门。它不仅提升了摘要质量其背后“显式建模关系”的思想对于任何需要处理图结构、树结构数据的多模态任务都有着广泛的借鉴意义。希望这篇深入的拆解能为你探索这一领域提供扎实的起点和实用的指南。

查看全文

http://www.gsyq.cn/news/1396185.html