当前位置：首页 > news >正文

字符n-gram与J48决策树：攻克乌尔都语短文本重用检测难题

news 2026/6/10 17:18:14

1. 项目概述为什么乌尔都语文本重用检测是个“硬骨头”在自然语言处理和信息检索领域文本重用检测一直是个既经典又充满挑战的任务。简单来说它的目标就是判断两段文本之间的关系是完全相同的复制原文照搬是经过改写的意译改写还是各自独立创作、只是话题巧合独立写作。这项技术在查重系统、新闻聚合溯源、社交媒体内容监控乃至数字图书馆建设中都扮演着关键角色。然而当我们把目光投向乌尔都语这样的资源稀缺语言时问题就变得复杂多了。乌尔都语是巴基斯坦的国语在南亚地区有超过一亿的使用者拥有丰富的文学和新闻传统。但与英语、中文等主流语言相比乌尔都语的数字化资源和自动化处理工具可谓凤毛麟角。其独特的书写系统从右至左的波斯-阿拉伯字母、复杂的形态学一个词根能衍生出大量变体以及缺乏大规模标注语料库都给文本分析任务设置了重重障碍。具体到短文本重用检测挑战更为严峻文本长度短可供比对的上下文信息有限改写行为可能只涉及个别词汇的替换或语序调整表面相似度低但语义高度相关而独立写作的文本又可能因为讨论同一热点事件而共享大量关键词。在这种“迷雾”中如何设计一个既精准又高效的检测系统就成了一个非常值得深挖的课题。本文要探讨的正是针对乌尔都语短文本重用检测的一套优化方法。其核心思路是绕过传统上对乌尔都语分词不友好的“词”级别分析直接深入到更底层的“字符”层面利用字符n-gram重叠作为特征再结合J48决策树分类器进行判别。实验基于一个名为USTRC的、包含2684个文本对的新建基准语料库系统对比了24种不同的检测方法。结果清晰地表明在众多方案中字符n-gram重叠特征配合J48分类器的组合脱颖而出尤其是在区分“原文”、“改写”和“独立写作”这三类文本的多分类任务中字符3-gram模型表现最佳。这不仅为乌尔都语文本分析提供了一个可靠的技术选型其方法论对于其他形态复杂或资源稀缺的语言也具有重要的借鉴意义。2. 核心思路拆解为何是字符n-gram与J48面对乌尔都语文本重用检测的难题方案选型需要直击痛点。一个有效的方案必须能克服语言特性带来的障碍并在计算效率和检测精度之间取得平衡。原研究测试了四大类共24种方法最终胜出的“字符n-gram J48”组合其背后的设计逻辑非常值得剖析。2.1 特征工程为什么选择字符n-gram而非词n-gram在文本处理中最直观的特征可能是“词”。但对于乌尔都语这恰恰是第一个坑。乌尔都语分词是出了名的难题其黏着特性使得词与词之间没有空格且存在大量的前缀、中缀和后缀变化。一个简单的词干加上不同的时态、性别、数格标记后会变成形态迥异的表面词。如果使用词n-gram系统会轻易地将“کتاب”书和“کتابیں”多本书判定为完全不同的两个单元从而错过它们之间的语义联系。更糟糕的是不成熟的分词工具会引入大量噪声直接损害特征质量。字符n-gram完美地避开了这个陷阱。它将文本视为一个字符序列然后提取所有长度为n的连续子串。例如对于字符串“کتاب”k, t, a, b其3-gram就是کتا,تاب。这种方法有几个关键优势语言无关性完全不需要分词器对任何书写系统都适用特别适合乌尔都语这类资源匮乏的语言。形态鲁棒性即使单词形态发生变化它们仍然共享大量共同的字符序列。改写时常用的同义词替换往往也发生在字符层面有重叠的词汇之间。捕捉局部模式能有效捕捉拼写错误、缩写、词序变换等表面修改这些在文本重用尤其是简单改写中非常常见。在原研究的实验中对于二分类任务判断是否重用字符5-gram和6-gram效果最好而对于更精细的三分类任务区分原文、改写、独立字符3-gram则拔得头筹。这其实反映了不同任务对特征粒度的需求二分类只需判断“是”与“否”需要更具区分度的、较长的字符模式而三分类需要捕捉更细微的差异较短的3-gram能提供更丰富的局部线索有助于在“原文”与“改写”、“改写”与“独立”这些模糊地带做出更精准的判断。2.2 分类器选型为什么J48决策树能胜任有了字符n-gram作为特征接下来就是选择一个合适的分类器。原研究对比了朴素贝叶斯、随机森林、J48决策树和支持向量机SMO。J48是WEKA数据挖掘工具中对C4.5决策树算法的实现它的胜出并非偶然。决策树模型的核心优势在于其可解释性和对混合类型数据的处理能力。文本重用检测任务中特征即不同的n-gram之间并非独立且重要性差异很大。J48通过信息增益或增益率自动选择最重要的特征进行节点分裂生成一棵清晰的“if-then”规则树。例如模型可能学习到一条规则“如果文本对共享‘特定政治人物姓名’的5-gram且不共享‘某个罕见动词变位’的3-gram则判定为‘改写’”。这种白盒模型让研究者能直观理解模型是如何做决策的对于分析错误案例、改进特征工程至关重要。相比之下朴素贝叶斯假设特征条件独立这在文本数据中通常不成立。支持向量机虽然在许多文本分类任务中表现强劲但其“黑盒”特性在需要理解分类边界的研究初期阶段可能不如决策树直观。随机森林是多个决策树的集成虽然通常能获得更高的精度但计算开销更大且可解释性有所下降。对于乌尔都语这样一个尚未被充分探索的领域选择一个既能提供可靠精度、又能提供洞察力的模型J48是一个稳健而明智的起点。注意选择J48并不意味着它永远是唯一或最好的选择。在实际工程中随机森林或梯度提升树如XGBoost常常能获得更高的性能。但在一项旨在探索方法可行性、理解问题特性的基础研究中决策树的透明性具有不可替代的价值。它帮助我们首先“看懂”问题然后再考虑用更复杂的模型去“优化”结果。3. 从零构建USTRC语料库的创建与挑战任何有监督的机器学习项目其天花板往往由数据集的质量决定。对于乌尔都语文本重用检测这样一个新兴方向缺乏公开、高质量、标注规范的基准语料库是最大的瓶颈。因此原研究的一项核心贡献就是构建了USTRC语料库。这个过程本身就充满了值得分享的经验和技巧。3.1 数据来源与采集策略语料库的数据全部来源于新闻文本这是一个非常聪明的选择。新闻领域是文本重用的高发区通讯社通稿会被不同媒体采用原文重用同一事件会被多家媒体从不同角度报道改写而不同事件也可能涉及相同的人物或机构导致独立文本表面相似。这天然地涵盖了我们需要研究的三种类别。采集过程需要兼顾规模和质量。研究者从多家主流乌尔都语新闻网站爬取了大量短文本如新闻简报、报道开头段落。关键在于如何从海量文本中构建出“文本对”这里通常采用“种子文档”法选定一批源文档然后通过内部链接、时间邻近性或主题聚类等方式为每个源文档寻找可能相关的候选文档。初步筛选可以基于简单的关键词匹配或元数据如发布时间、栏目。最终USTRC包含了2684个“源文本-重用文本”对这个规模对于研究方法验证来说是足够的。3.2 人工标注的黄金标准与质量控制自动方法的好坏需要一个“黄金标准”来评判这就是人工标注。USTRC将每个文本对标注为三类之一原文照搬文本B几乎逐字复制了文本A可能仅有极个别的标点或功能词差异。改写文本B保留了文本A的核心信息但进行了词汇替换、语序调整、句子合并或拆分等释义操作。独立写作文本A和B讨论的是不同的事件或主题或者即使主题相同但表达的信息和方式完全不同任何相似性都属巧合。标注工作必须由精通乌尔都语的语言学家或资深编辑来完成。为了保证标注的一致性需要制定详细的标注指南。这份指南需要明确界定三类别的边界并提供大量典型和非典型的例子。例如多大比例的词汇重叠算“原文”改变句子主语但保留谓语算“改写”还是“独立”这些模糊地带都需要在指南中预先达成共识。更关键的一步是进行标注者间一致性检验通常使用科恩的Kappa系数。做法是让多位标注者对同一个子集进行独立标注然后计算他们之间的一致性。如果Kappa系数较低例如低于0.6说明指南不清晰或类别难以区分必须重新修订指南并培训标注者直到达到可接受的一致性水平如0.8以上。这个过程非常耗时但它是确保语料库科学性和可信度的生命线。最终USTRC语料库达到了496对“原文”、1329对“改写”和859对“独立”的分布这个分布也反映了真实世界中改写最为常见的现象。3.3 语料库的预处理与格式化原始爬取的文本是“脏”的包含HTML标签、广告代码、非标准字符等。预处理流程必须标准化清洗去除所有HTML/XML标签、脚本、样式表。编码统一确保所有文本使用统一的UTF-8编码正确处理乌尔都语特有的字符。标准化将不同的引号、破折号等统一为标准形式。对于乌尔都语可能还需要处理字符的连写形式与独立形式的统一化。分段/分句虽然研究针对短文本但清晰的句子边界有助于后续某些对齐方法的应用。格式化存储最终将文本对及其类别标签以结构化的格式如JSON、XML或特定的TSV格式存储并拆分为训练集、开发集和测试集。实操心得构建小语种语料库时“质量远大于数量”。一个干净、标注一致的1000对语料库远比一个嘈杂、标注模糊的10000对语料库有价值。在资源有限的情况下应把主要精力放在标注指南的打磨和标注质量的把控上。此外务必详细记录语料库的构建元数据来源、时间范围、采集方法、标注者信息、一致性分数等这些信息对于其他研究者复现和评估你的工作至关重要。4. 方法实现字符n-gram特征提取与J48模型训练全流程理解了“为什么”之后我们进入“怎么做”的环节。下面将详细拆解从原始文本到最终分类结果的完整技术流水线并附上关键步骤的说明和注意事项。4.1 特征提取字符n-gram的生成与向量化这是整个流程的第一步目标是将非结构化的文本对转化为机器学习模型可以处理的数值特征向量。步骤1文本规范化对每一篇乌尔都语文本进行最低限度的清洗去除所有非乌尔都语字符如英文、数字、特殊符号除非它们对任务关键将多种空格统一为一个空格。注意这里刻意不做词干还原或去除停用词因为字符n-gram方法会自然地将这些高频字符序列作为特征的一部分模型可以自行学习其重要性。步骤2生成n-gram集合为每篇文本生成其所有长度为n的连续字符序列的集合。例如对于文本“اردو زبان”乌尔都语设定n3则过程如下滑动窗口依次取出ارد,ردو,دو,و ز,زب,زبا,بان。得到该文本的3-gram集合{ارد, ردو, دو , و ز, زب, زبا, بان}。步骤3构建文本对特征我们的基本分析单元是一个“文本对”Text Pair。对于一对文本A和B我们需要计算它们之间的相似性特征。最常用的方法是计算Jaccard相似系数或重叠比例。Jaccard相似度相似度 |A的n-gram集合 ∩ B的n-gram集合| / |A的n-gram集合 ∪ B的n-gram集合|重叠比例可以从A的角度或B的角度计算例如A到B的重叠 |A ∩ B| / |A|表示A的内容有多少在B中出现了。在原研究中很可能采用了单一相似度值或一组多个重叠比例值作为特征。更精细的做法是同时提取多个不同n值如2,3,4,5下的相似度共同构成一个特征向量。例如一个文本对的特征向量可能是[2-gram相似度, 3-gram相似度, 4-gram相似度, 5-gram相似度]。步骤4特征向量组装遍历语料库中的所有文本对对每一对都执行步骤2和3生成对应的特征向量。同时将每对文本的人工标注类别V, P, I作为该向量的标签。最终我们得到一个标准的“特征矩阵”和“标签向量”可以输入给分类器了。4.2 模型训练J48决策树的配置与优化使用WEKA工具库中的J48实现其训练过程包含几个关键决策点。步骤1数据准备与划分将带有标签的特征数据集随机划分为训练集通常70%、验证集15%和测试集15%。训练集用于学习模型验证集用于调整超参数测试集用于最终评估且测试集在调参过程中绝对不可见。步骤2J48核心参数调优J48有几个关键参数直接影响树的复杂度和泛化能力置信因子用于剪枝的置信度阈值。值越小剪枝越激进树越小可能欠拟合值越大剪枝越保守树越大可能过拟合。通常从0.25开始尝试。最小叶节点实例数一个叶节点至少需要包含的实例数。设置这个值可以防止模型学习到过于特定的噪声模式。例如设置为2或5。最小分裂实例数一个节点被考虑进行分裂所需的最小实例数。同样用于控制过拟合。调优时在训练集上训练不同参数组合的模型然后在验证集上评估其性能如F1值选择在验证集上表现最好的参数组合。步骤3处理类别不平衡USTRC语料库中三类样本数量不等改写最多独立次之原文最少。决策树本身对类别不平衡有一定鲁棒性但为了更好效果可以在WEKA中启用代价敏感学习或对训练数据进行过采样/欠采样。例如对少数的“原文”类别进行过采样或对多数的“改写”类别进行欠采样使各类别在训练时大致均衡。步骤4模型训练与保存使用最优参数在完整的训练集或训练验证集上重新训练最终模型。训练完成后可以将模型序列化保存WEKA的.model格式供后续对新文本对进行预测使用。4.3 评估与结果解读混淆矩阵告诉了我们什么模型训练好后需要在独立的测试集上进行评估。对于多分类问题准确率往往不够需要看混淆矩阵和每类的精确率、召回率、F1值。原论文中的表3混淆矩阵提供了极其宝贵的信息。我们假设一个简化的版本如下数字为示例真实 \ 预测V (原文)P (改写)I (独立)V (原文)9082P (改写)1530085I (独立)5100150从这个矩阵中我们可以读出很多故事对角线是正确分类V-V、P-P、I-I的数值越高越好。V和I容易区分V行中被误判为I的只有2个I列中被误判为V的只有5个。这说明“原文”和“独立”文本的字符n-gram模式差异最大模型最容易学会。P类是难点P改写的行和列充满了错误。有15个P被误判为V说明改写程度极低近乎原文更有85个P被误判为I说明改写程度很高近乎重写。同时有100个I被误判为P。这恰恰印证了论文的结论“原文”与“独立”之间泾渭分明而“改写”则像一个光谱其两端分别与“原文”和“独立”模糊地接壤。模型最难做的就是在这个光谱上划出清晰的界限。这个分析至关重要它指明了未来改进的方向我们的特征字符n-gram和模型J48在捕捉“表面相似性”上已经做得不错但要精准识别“改写”可能需要引入能捕捉语义相似性和句法结构的更深层特征。5. 方案对比与选型深度分析原研究测试了24种方法这不仅仅是为了找出一个最优解更是为了全面绘制乌尔都语文本重用检测的“方法地形图”。理解其他方法为何表现不佳能让我们更深刻地认识到当前最优方案的适用边界和优势所在。5.1 四大类方法横向评测研究将方法分为四大类其表现差异揭示了不同技术路径的适应性方法类别代表方法核心思想在乌尔都语上的主要挑战表现分析词汇方法词n-gram重叠向量空间模型基于单词的共现或分布相似性严重依赖分词质量。乌尔都语分词错误率高且词汇形态变化丰富导致特征稀疏、不稳定。表现一般。词n-gram受分词噪声影响大VSM需要较大语料学习词向量而乌尔都语资源匮乏。字符串与序列对齐LCS, Greedy String Tiling, 全局/局部对齐寻找两段文本字符序列的最长公共子串或最优对齐方式计算复杂度高尤其对长文本。对于释义型改写字符序列可能被大幅重组导致最长公共子串很短相似度得分低。对“原文”检测很准但对“改写”不敏感。适合检测“抄袭”不适合检测“意译”。结构方法字符n-gram重叠比较子字符串集合的相似度需要选择合适的n值。n太小则噪声大如“的”、“了”的n-gramn太大则对改写过于敏感。综合表现最佳。平衡了计算效率、对形态变化的鲁棒性以及对局部改写的捕捉能力。风格方法型例比词例比分析文本的词汇丰富度、句子长度等统计风格假设不同作者或类型的文本有可区分的风格。但短文本的统计特征不稳定且新闻文本风格可能趋同。表现最差。短文本提供的风格特征信号太弱无法有效区分三类文本尤其是改写和独立。5.2 字符n-gram方法的参数敏感性与选择即使在字符n-gram方法内部n值的选择也是一门艺术。实验结果表明二分类任务重用 vs 非重用n5, 6 效果最好。较长的n-gram能捕捉更稳定的、更具鉴别力的短语模式有助于在“重用”包含V和P和“非重用”I之间划出清晰的线。三分类任务V, P, In3 效果最好。较短的3-gram更灵活能捕捉到词汇内部的变化如词形变化和细微的改写痕迹。当任务需要更精细地区分“原文”和“轻度改写”时更细粒度的特征提供了更多信息。这给我们一个重要的实操启示没有“放之四海而皆准”的最佳n值。它严重依赖于你的任务目标和文本长度。在你自己项目中务必在开发集上对n值进行网格搜索例如从2到7观察不同n值下各类别的F1值变化从而确定最优参数。5.3 J48与其他分类器的对比思考为什么是J48而不是更复杂的随机森林或SVM除了前述的可解释性在资源稀缺的场景下还需要考虑计算效率决策树的训练和预测速度通常快于SVM和随机森林这对于需要快速迭代实验的研究阶段很友好。小数据表现在数据量不是特别巨大的情况下USTRC仅2684对决策树往往能取得与更复杂模型相当甚至更好的结果而不会因为模型过于复杂而陷入过拟合。特征重要性输出J48能直观展示哪些n-gram特征在决策中最重要的。分析这些特征能帮助我们理解模型究竟学到了什么。例如如果发现某些功能词缀的n-gram很重要可能提示我们未来的特征工程可以朝这个方向深化。当然这绝不意味着J48是终点。一旦通过J48理解了问题脉络和特征的有效性完全可以将这些特征输入到随机森林、梯度提升机甚至神经网络中去冲击更高的性能上限。J48在这里扮演了“侦察兵”和“奠基石”的角色。6. 实战指南复现与扩展项目的关键步骤如果你对乌尔都语或类似小语种的文本重用检测感兴趣想要复现或在此基础上开展自己的工作以下是一份可操作的路线图。6.1 环境准备与工具链编程语言Python是首选其丰富的NLP库如NLTK, spaCy和机器学习库如scikit-learn生态无敌。Java也是一个选择可以直接使用WEKA。核心库文本处理regex库处理Unicode字符unicodedata字符标准化。特征提取scikit-learn的CountVectorizer或TfidfVectorizer可以轻松配置为字符n-gram模式。也可以自己用Python原生字符串操作实现。机器学习scikit-learn提供了CART决策树可替代J48或者直接使用weka的Python封装如python-weka-wrapper3。数据操作pandas。语料获取USTRC语料库已公开可以从论文提供的链接下载。这是你起步的黄金标准数据。6.2 复现实验的核心代码框架以下是一个高度简化的Python代码框架展示了核心流程import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, confusion_matrix # 1. 加载数据 (假设数据已处理为DataFrame) # df 应包含列: text_a, text_b, label df pd.read_csv(ustrc_corpus.csv) # 2. 定义函数为文本对生成字符n-gram相似度特征 def extract_char_ngram_features(text_a, text_b, n_values[3, 4, 5]): features [] for n in n_values: # 使用TfidfVectorizer生成字符n-gram的布尔存在特征 vectorizer TfidfVectorizer(analyzerchar, ngram_range(n, n), binaryTrue) # 注意这里需要将两个文本合并拟合一整个词汇表然后分别转换 all_texts [text_a, text_b] X vectorizer.fit_transform(all_texts) vec_a X[0].toarray().flatten() vec_b X[1].toarray().flatten() # 计算Jaccard相似度 (对于二进制向量Jaccard 交集大小 / 并集大小) intersection np.logical_and(vec_a, vec_b).sum() union np.logical_or(vec_a, vec_b).sum() jaccard intersection / union if union 0 else 0.0 features.append(jaccard) return features # 3. 为所有文本对提取特征 X [] for _, row in df.iterrows(): feats extract_char_ngram_features(row[text_a], row[text_b], n_values[3, 4, 5]) X.append(feats) X np.array(X) y df[label].values # 4. 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42, stratifyy) # 5. 训练J48/CART决策树 clf DecisionTreeClassifier(criterionentropy, # 使用信息增益类似J48 max_depthNone, # 可调参数 min_samples_split2, # 可调参数 min_samples_leaf1, # 可调参数 class_weightbalanced) # 处理类别不平衡 clf.fit(X_train, y_train) # 6. 评估 y_pred clf.predict(X_test) print(classification_report(y_test, y_pred)) print(Confusion Matrix:) print(confusion_matrix(y_test, y_pred)) # 7. 特征重要性分析 (可选) # 可以查看哪些n-gram特征对应特征索引最重要但这里我们的特征是相似度值不是直接的n-gram。 # 如果需要分析具体哪些字符组合重要需要更复杂的特征工程。6.3 项目扩展与优化方向复现只是第一步真正的价值在于扩展和创新。特征融合不要局限于字符n-gram。可以尝试混合n-gram同时使用字符n-gram和词n-gram如果分词器可用的特征。嵌入向量使用多语言BERT如bert-base-multilingual-cased获取文本对的句向量然后计算余弦相似度作为语义特征与表面特征结合。句法特征尝试提取浅层句法特征如词性标签的n-gram重叠需要乌尔都语POS标注器。模型升级将J48替换为随机森林或梯度提升树观察集成学习是否能提升性能。尝试简单的神经网络如将特征向量输入一个多层感知机。解决核心难点——改写识别引入外部知识利用乌尔都语同义词词典计算文本对在经过同义词替换后的表面相似度变化。语义相似度模型专门训练或微调一个乌尔都语的句子相似度模型其输出作为关键特征。分阶段分类先训练一个二分类模型区分“重用”与“非重用”再对“重用”部分训练一个二分类模型区分“原文”与“改写”。这种级联结构可能比直接三分类更有效。应用于新领域将验证过的方法迁移到其他乌尔都语文体如社交媒体帖子、学术摘要或文学评论检验其泛化能力。7. 常见问题、避坑指南与经验总结在实践过程中你一定会遇到各种问题。以下是一些常见陷阱及解决方案很多是论文中不会提及的“战场经验”。7.1 数据与预处理相关问题字符n-gram特征维度爆炸导致模型训练慢且易过拟合。解决方案使用TfidfVectorizer并设置max_features参数只保留最常见的N个n-gram。或者使用哈希向量器HashingVectorizer来固定特征维度。对于乌尔都语由于字符集相对有限维度爆炸问题比中文等语言要轻。问题乌尔都语文本编码不一致出现乱码。解决方案统一使用UTF-8编码。在读取文件时指定encodingutf-8-sig以处理可能的BOM头。使用ftfy或unicodedata.normalize(NFC, text)对文本进行Unicode规范化。问题语料库类别严重不平衡模型总是预测多数类。解决方案在DecisionTreeClassifier中设置class_weightbalanced。或者在数据层面使用过采样如SMOTE但对文本特征需谨慎或欠采样。7.2 模型训练与评估相关问题决策树模型在训练集上完美在测试集上很差过拟合。解决方案加强剪枝。调低ccp_alpha代价复杂度剪枝参数或增加min_samples_split和min_samples_leaf的值。最重要的是确保你的特征不是过于特定于训练集。问题如何确定最佳的n-gram范围解决方案进行网格搜索。不要只用一个n值尝试一个范围如2到6。可以将不同n值的相似度作为多个特征输入让模型自己去决定权重。使用交叉验证在开发集上评估不同组合的性能。问题混淆矩阵显示“改写”和“独立”混淆严重如何提升解决方案这是本任务的核心难点。首先检查被混淆的样本进行人工分析看它们是否确实边界模糊。其次考虑引入否定性特征例如计算文本对在“停用词n-gram”上的相似度如果连这些高频词都不相似那更可能是独立写作。最后考虑语义特征这是从根本上区分“表面不似但语义相似”改写和“表面相似但语义无关”独立的关键。7.3 工程化与部署考量问题对于新的文本对如何快速计算其特征并进行预测解决方案将训练好的TfidfVectorizer用于构建词汇表和决策树模型用joblib或pickle保存。线上预测时加载这两个模型对新文本对进行相同的特征提取和转换然后调用决策树的predict方法。问题短文本的n-gram特征非常稀疏如何处理解决方案对于极短的文本如一句话考虑使用更小的n值如2或者采用“滑动窗口”的方式将文本按一定窗口大小和步长分割成片段对每个片段提取n-gram后再聚合。个人经验与最终建议从事这类研究最大的体会是对于资源稀缺语言简单、鲁棒、可解释的方法往往比复杂、黑盒的深度学习模型在起步阶段更有效。字符n-gramJ48这个组合就是一个极佳的范例。它不依赖任何外部资源计算高效结果可解释为我们理解乌尔都语文本重用现象提供了一个坚实的基线。在项目初期不要急于堆砌最前沿的模型。应该像这项研究一样系统地建立基准语料库用控制变量法对比经典方法深刻理解数据特性和任务难点。当你通过J48决策树看到了哪些特征在起作用哪些样本被分错你对问题的认知就已经上了一个台阶。这时再引入词向量、预训练模型等“大杀器”进行有针对性的改进才能事半功倍。最后永远不要忽视人工分析。定期抽样查看模型预测正确和错误的样本尤其是那些高置信度出错的样本。这些案例是你改进特征、调整模型、甚至修订标注指南的最宝贵源泉。文本重用检测终究是一个需要语言直觉和计算模型相结合的任务。

查看全文

http://www.gsyq.cn/news/1394659.html