当前位置: 首页 > news >正文

ragas官方文档中文版(二十六)

评估一个简单的 RAG 系统

在本教程中,我们将编写一个简单的评估管道来评估 RAG(检索增强生成,Retrieval-Augmented Generation)系统。本教程结束时,您将学会如何使用评估驱动开发(evaluation-driven development)来评估和迭代 RAG 系统。


我们将从编写一个简单的 RAG 系统开始,该系统从语料库中检索相关文档,并使用 LLM 生成答案。

python -m ragas_examples.rag_eval.rag

接下来,我们将为 RAG 系统编写几个示例查询和预期输出,然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"query":"What is Ragas 0.3?","grading_notes":"- Ragas 0.3 is a library for evaluating LLM applications."},{"query":"How to install Ragas?","grading_notes":"- install from source - install from pip using ragas[examples]"},{"query":"What are the main features of Ragas?","grading_notes":"organised around - experiments - datasets - metrics."}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

为了评估 RAG 系统的性能,我们将定义一个基于 LLM 的指标,该指标将 RAG 系统的输出与评分标准(grading_notes)进行比较,并据此输出通过(pass)或失败(fail)。

fromragas.metricsimportDiscreteMetric my_metric=DiscreteMetric(name="correctness",prompt="Check if the response contains points mentioned from the grading notes and return 'pass' or 'fail'.\nResponse: {response} Grading Notes: {grading_notes}",allowed_values=["pass","fail"],)

接下来,我们将编写实验循环,在测试数据集上运行 RAG 系统,使用该指标进行评估,并将结果存储在 CSV 文件中。

@experiment()asyncdefrun_experiment(row):response=rag_client.query(row["query"])score=my_metric.score(llm=llm,response=response.get("answer"," "),grading_notes=row["grading_notes"])experiment_view={**row,"response":response.get("answer",""),"score":score.value,"log_file":response.get("logs"," "),}returnexperiment_view

现在,每当您对 RAG 管道进行修改时,都可以运行实验,观察它如何影响 RAG 的性能。

端到端运行示例

  1. 设置 OpenAI API 密钥
export OPENAI_API_KEY="your_openai_api_key"
  1. 运行评估
python -m ragas_examples.rag_eval.evals

完成!您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

http://www.gsyq.cn/news/1574844.html

相关文章:

  • Aurora Store终极指南:如何在无Google服务设备上自由下载Android应用
  • MPC5200嵌入式开发套件全解析:从硬件选型到RTOS实战
  • Pixelle-Video:当创作从技术操作演变为思想表达
  • N_m3u8DL-RE流媒体下载终极指南:三步搞定加密HLS/DASH视频
  • AI与大模型新闻日报 | 2026-06-22
  • 如何用Akagi麻将AI助手3分钟提升你的麻将水平:从新手到高手的完整指南
  • 2026武汉江诗丹顿名表回收指南,验表知识+避坑技巧全整理 - 名奢变现站
  • 用多模型 AI 辅助排查接口超时:从日志分析到测试用例补全
  • GCC编译流程拆解:预处理→编译→汇编→链接分步实操,手动生成目标文件、静态_动态链接库对比差异
  • 2026宜宾黄金回收门店口碑榜单,整合965位实地打分优选 - 商业快讯早知道
  • 2026水性聚氨酯乳液选购攻略:权威口碑排行+5大避坑陷阱,采购不踩雷 - 互联网科技品牌测评
  • 确定性幻觉与随机性本质:从代码到玄学的思维跨界探索
  • AI工具如何悄悄改变大脑:工作记忆、元认知与延迟满足的神经防护指南
  • 2026年封箱胶带厂家推荐排行榜:透明OPP高粘打包胶带,加厚加粘易撕不残留,快递物流仓储专用环保可降解公司推荐 - 品牌发掘
  • 2026年 中专/中职/技校/职业技术学校/协议升学班/综合高中班最新实力排行榜:升学率与就业口碑双优之选 - 企业推荐官【官方】
  • Codex高阶功能:引导、注释、压缩、分叉、Skill与插件全解析
  • 深入解析SAM4C32 PIO控制器:从GPIO基础到引脚复用与中断实战
  • 实测7家无锡黄金回收门店|2026大盘价936元/克,无锡合规黄金回收门店靠谱渠道推荐 - 开心测评
  • 混合架构处理器56F8122:MCU与DSP融合的嵌入式开发实战
  • 3步掌握:如何快速实现网盘直链高效提取
  • i.MX 6SLL:低功耗智能设备核心选型与开发实战解析
  • 2026年天津劳动纠纷维权律师哪家好?5位实力派专业推荐 - 本地品牌推荐
  • EffOPD:基于参数更新视角的在线蒸馏对齐方法
  • SSH服务器安全纵深防御:从基础配置到高级监控的完整指南
  • NSK精机:W2009FS滚珠丝杠技术规范详述
  • 大语言模型解码策略实战:Beam Search与Tilted Sampling的工程对比与优化
  • OSX-KVM性能飞跃:从虚拟化到原生体验的全面解锁
  • 西安整装公司有推荐的吗?3个维度帮你选 - 速递信息
  • DeepSeek-V4核心技术解析:mHC、CSA、HCA与Muon工程实践
  • 2026 杭州各区县手表回收攻略 本地人避坑指南各区腕表变现方法详解 - 薛定谔的梨花猫