当前位置: 首页 > news >正文

Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

文章总结与翻译

一、主要内容

该研究聚焦低资源语言乌尔都语的反讽检测问题,核心是通过跨语言数据适配与多模型对比,构建高效的乌尔都语反讽检测体系,具体内容如下:

  1. 数据构建:针对乌尔都语反讽数据集稀缺的现状,将英文常用反讽语料库(含1950条Reddit评论,标注为反讽/非反讽)通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语,经多阶段质量验证,确保语义准确性与反讽意味的完整性,最终形成适用于二分类任务的乌尔都语数据集。
  2. 数据预处理:针对乌尔都语语言特性,执行文本标准化(去除冗余空格、控制字符等)、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤;为传统机器学习模型采用GloVe和Word2Vec词嵌入,为Transformer类模型使用内置预训练分词器。
  3. 模型实验
    • 传统机器学习模型:测试逻辑回归、SVM、随机森林等10种算法,基于GloVe和Word2Vec嵌入训练,其中梯度提升(Gradient Boosting)表现最佳,GloVe嵌入下F1分数达89.18%。
    • 大型语言模型(LLMs):微调BERT、RoBERTa、LLaMA 2(7B)、LLaMA 3(8B)、Mistral等模型,LLaMA 3(8B)性能最优,F1分数高达94.61%。
  4. 实验结论:LLMs在乌尔都语反讽检测中显著优于传统机器学习模型,深层语义表征与上下文捕捉能
http://www.gsyq.cn/news/1640984.html

相关文章:

  • 存储芯片千问千答第2问:盲封TT wafer是什么意思?
  • 告别网盘限速:9大平台直链下载助手的完全使用指南
  • 作为储能通信方案商,我们在SNEC 2026上被问得最多的问题是什么?
  • Easy-agent介绍
  • UVa 520 Append
  • 用optiland绘制光扇图
  • 存储芯片千问千答第3篇:存储芯片中test mode是什么意思?
  • 小学期第四周记录
  • UVa 521 Gossiping
  • Evaluating Multimodal Large Language Models on Core Music Perception Tasks
  • AI 全栈开发实战(15):全系列总结——从零到一做一个真正的 AI 产品
  • 新e选烤火罩pH值[主里料](C类)GB/T 7573—2009 判定符合
  • 向量数据库选型与实战 —— Milvus、Qdrant、Chroma 深度对比与最佳实践
  • 星露谷物语自动化革命:5大必备模组彻底改变你的农场生活 [特殊字符]
  • 分布式事务解决方案全景:从 2PC 到 Saga,每种方案的适用场景与落地要点
  • 微调LLM提升工具调用能力的ShareGPT数据格式
  • opc.ua在NET6.0的使用
  • 我的 AI 辅助开发工具链 2026 版——从 IDE 到 Agent,效率提升了多少?
  • 解放双手:用Python为Windows微信注入自动化能力
  • Gemini 复制到 word 格式问题频繁出现?AI 导出鸭一站式修复排版错乱难题
  • 2026 AI 开发者生存指南(7):10 个 AI 开发者必备的开源项目导航
  • 浏览器用户画像大屏搭建:从静态布局到交互联动(附完整代码)
  • Linux中Mamba的有效安装
  • Anthropic 宣布 7 月 8 日起 Claude 用户需人脸实名认证,AI 匿名时代终结
  • Python之strudelpy包语法、参数和实际应用案例
  • Codex怎么删除会话?Codex怎么删除历史聊天?解决Codex启动卡顿问题教程
  • 锂离子电池过压保护与BQ2920设计要点解析
  • 终极指南:如何在5分钟内安装Deforum扩展并创建Stable Diffusion动画
  • C语言 冒泡排序
  • STM32F439ZG与MC6470 IMU的运动控制开发指南