当前位置：首页 > news >正文

ragas官方文档中文版（二十六）

news 2026/6/22 18:50:17

评估一个简单的 RAG 系统

在本教程中，我们将编写一个简单的评估管道来评估 RAG（检索增强生成，Retrieval-Augmented Generation）系统。本教程结束时，您将学会如何使用评估驱动开发（evaluation-driven development）来评估和迭代 RAG 系统。

我们将从编写一个简单的 RAG 系统开始，该系统从语料库中检索相关文档，并使用 LLM 生成答案。

python -m ragas_examples.rag_eval.rag

接下来，我们将为 RAG 系统编写几个示例查询和预期输出，然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"query":"What is Ragas 0.3?","grading_notes":"- Ragas 0.3 is a library for evaluating LLM applications."},{"query":"How to install Ragas?","grading_notes":"- install from source - install from pip using ragas[examples]"},{"query":"What are the main features of Ragas?","grading_notes":"organised around - experiments - datasets - metrics."}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

为了评估 RAG 系统的性能，我们将定义一个基于 LLM 的指标，该指标将 RAG 系统的输出与评分标准（grading_notes）进行比较，并据此输出通过（pass）或失败（fail）。

fromragas.metricsimportDiscreteMetric my_metric=DiscreteMetric(name="correctness",prompt="Check if the response contains points mentioned from the grading notes and return 'pass' or 'fail'.\nResponse: {response} Grading Notes: {grading_notes}",allowed_values=["pass","fail"],)

接下来，我们将编写实验循环，在测试数据集上运行 RAG 系统，使用该指标进行评估，并将结果存储在 CSV 文件中。

@experiment()asyncdefrun_experiment(row):response=rag_client.query(row["query"])score=my_metric.score(llm=llm,response=response.get("answer"," "),grading_notes=row["grading_notes"])experiment_view={**row,"response":response.get("answer",""),"score":score.value,"log_file":response.get("logs"," "),}returnexperiment_view

现在，每当您对 RAG 管道进行修改时，都可以运行实验，观察它如何影响 RAG 的性能。

端到端运行示例

设置 OpenAI API 密钥

export OPENAI_API_KEY="your_openai_api_key"

运行评估

python -m ragas_examples.rag_eval.evals

完成！您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

查看全文

http://www.gsyq.cn/news/1574844.html

Aurora Store终极指南：如何在无Google服务设备上自由下载Android应用

MPC5200嵌入式开发套件全解析：从硬件选型到RTOS实战

Pixelle-Video：当创作从技术操作演变为思想表达

N_m3u8DL-RE流媒体下载终极指南：三步搞定加密HLS/DASH视频

AI与大模型新闻日报 | 2026-06-22

如何用Akagi麻将AI助手3分钟提升你的麻将水平：从新手到高手的完整指南

2026武汉江诗丹顿名表回收指南，验表知识+避坑技巧全整理 - 名奢变现站

用多模型 AI 辅助排查接口超时：从日志分析到测试用例补全

GCC编译流程拆解：预处理→编译→汇编→链接分步实操，手动生成目标文件、静态_动态链接库对比差异

2026宜宾黄金回收门店口碑榜单，整合965位实地打分优选 - 商业快讯早知道

2026水性聚氨酯乳液选购攻略：权威口碑排行+5大避坑陷阱，采购不踩雷 - 互联网科技品牌测评

确定性幻觉与随机性本质：从代码到玄学的思维跨界探索

AI工具如何悄悄改变大脑：工作记忆、元认知与延迟满足的神经防护指南

2026年中专/中职/技校/职业技术学校/协议升学班/综合高中班最新实力排行榜：升学率与就业口碑双优之选 - 企业推荐官【官方】

Codex高阶功能：引导、注释、压缩、分叉、Skill与插件全解析

深入解析SAM4C32 PIO控制器：从GPIO基础到引脚复用与中断实战

实测7家无锡黄金回收门店｜2026大盘价936元/克，无锡合规黄金回收门店靠谱渠道推荐 - 开心测评

混合架构处理器56F8122：MCU与DSP融合的嵌入式开发实战

3步掌握：如何快速实现网盘直链高效提取

i.MX 6SLL：低功耗智能设备核心选型与开发实战解析

2026年天津劳动纠纷维权律师哪家好？5位实力派专业推荐 - 本地品牌推荐

EffOPD：基于参数更新视角的在线蒸馏对齐方法

SSH服务器安全纵深防御：从基础配置到高级监控的完整指南

NSK精机：W2009FS滚珠丝杠技术规范详述

大语言模型解码策略实战：Beam Search与Tilted Sampling的工程对比与优化

OSX-KVM性能飞跃：从虚拟化到原生体验的全面解锁

西安整装公司有推荐的吗？3个维度帮你选 - 速递信息

DeepSeek-V4核心技术解析：mHC、CSA、HCA与Muon工程实践

2026 杭州各区县手表回收攻略本地人避坑指南各区腕表变现方法详解 - 薛定谔的梨花猫

评估一个简单的 RAG 系统

端到端运行示例

相关文章：