当前位置：首页 > news >正文

Irony Detection in Urdu Text: A Comparative Study Using Machine Learning Models and Large Languag...

news 2026/7/5 15:31:55

文章总结与翻译

一、主要内容

该研究聚焦低资源语言乌尔都语的反讽检测问题，核心是通过跨语言数据适配与多模型对比，构建高效的乌尔都语反讽检测体系，具体内容如下：

数据构建：针对乌尔都语反讽数据集稀缺的现状，将英文常用反讽语料库（含1950条Reddit评论，标注为反讽/非反讽）通过“机器翻译+人工后期编辑”的半自动化方式翻译成乌尔都语，经多阶段质量验证，确保语义准确性与反讽意味的完整性，最终形成适用于二分类任务的乌尔都语数据集。
数据预处理：针对乌尔都语语言特性，执行文本标准化（去除冗余空格、控制字符等）、去除变音符号、统一音译形式、小写转换、语言专属分词、停用词移除等步骤；为传统机器学习模型采用GloVe和Word2Vec词嵌入，为Transformer类模型使用内置预训练分词器。
模型实验：
- 传统机器学习模型：测试逻辑回归、SVM、随机森林等10种算法，基于GloVe和Word2Vec嵌入训练，其中梯度提升（Gradient Boosting）表现最佳，GloVe嵌入下F1分数达89.18%。
- 大型语言模型（LLMs）：微调BERT、RoBERTa、LLaMA 2（7B）、LLaMA 3（8B）、Mistral等模型，LLaMA 3（8B）性能最优，F1分数高达94.61%。
实验结论：LLMs在乌尔都语反讽检测中显著优于传统机器学习模型，深层语义表征与上下文捕捉能

http://www.gsyq.cn/news/1640984.html

相关文章：

存储芯片千问千答第2问：盲封TT wafer是什么意思？

告别网盘限速：9大平台直链下载助手的完全使用指南

作为储能通信方案商，我们在SNEC 2026上被问得最多的问题是什么？

Easy-agent介绍

用optiland绘制光扇图

存储芯片千问千答第3篇：存储芯片中test mode是什么意思？

小学期第四周记录

UVa 521 Gossiping

Evaluating Multimodal Large Language Models on Core Music Perception Tasks

AI 全栈开发实战（15）：全系列总结——从零到一做一个真正的 AI 产品

新e选烤火罩pH值[主里料]（C类）GB/T 7573—2009 判定符合

向量数据库选型与实战 —— Milvus、Qdrant、Chroma 深度对比与最佳实践

星露谷物语自动化革命：5大必备模组彻底改变你的农场生活 [特殊字符]

分布式事务解决方案全景：从 2PC 到 Saga，每种方案的适用场景与落地要点

微调LLM提升工具调用能力的ShareGPT数据格式

opc.ua在NET6.0的使用

我的 AI 辅助开发工具链 2026 版——从 IDE 到 Agent，效率提升了多少？

解放双手：用Python为Windows微信注入自动化能力

Gemini 复制到 word 格式问题频繁出现？AI 导出鸭一站式修复排版错乱难题

2026 AI 开发者生存指南（7）：10 个 AI 开发者必备的开源项目导航

浏览器用户画像大屏搭建：从静态布局到交互联动（附完整代码）

Linux中Mamba的有效安装

Anthropic 宣布 7 月 8 日起 Claude 用户需人脸实名认证，AI 匿名时代终结

Python之strudelpy包语法、参数和实际应用案例

Codex怎么删除会话？Codex怎么删除历史聊天？解决Codex启动卡顿问题教程

锂离子电池过压保护与BQ2920设计要点解析

终极指南：如何在5分钟内安装Deforum扩展并创建Stable Diffusion动画

C语言冒泡排序

STM32F439ZG与MC6470 IMU的运动控制开发指南