跳到内容
Ragas
组件指南
正在初始化搜索
explodinggradients/ragas
🚀 入门
📚 核心概念
🛠️ 操作指南
📖 参考
❤️ 社区
Ragas
explodinggradients/ragas
🚀 入门
🚀 入门
安装
评估您的第一个 LLM 应用
评估一个简单的 RAG
为 RAG 生成合成测试集
📚 核心概念
📚 核心概念
组件
组件
通用
通用
Prompt
评估
评估
评估样本
评估数据集
指标
指标
概述
可用指标
可用指标
检索增强生成
检索增强生成
上下文准确率
上下文召回率
上下文实体召回率
噪声敏感性
响应相关性
忠实度
Nvidia 指标
Nvidia 指标
回答准确性
上下文相关性
响应基于事实性
代理或工具使用用例
代理或工具使用用例
代理性或工具使用
主题一致性
工具调用准确性
代理目标准确性
自然语言比较
自然语言比较
事实正确性
语义相似度
传统非 LLM 指标
传统非 LLM 指标
传统 NLP 指标
非 LLM 字符串相似度
BLEU 分数
ROUGE 分数
字符串存在性
精确匹配
SQL
SQL
SQL
基于执行的 Datacompy 分数
SQL 查询等效性
通用目的
通用目的
通用目的指标
Aspect Critic
简单标准评分
基于量规的评分
实例特定量规评分
其他任务
其他任务
摘要
测试数据生成
测试数据生成
RAG
RAG
RAG 测试集生成
KG 构建
场景生成
代理或工具使用
代理或工具使用
代理或工具使用用例测试集生成
反馈智能
反馈智能
🛠️ 操作指南
🛠️ 操作指南
定制
定制
通用
通用
定制模型
运行配置
缓存
指标
指标
修改 Prompts
使指标适应不同语言
编写您自己的指标
编写您自己的指标 - (高级)
测试集生成
测试集生成
非英语测试集生成
Persona 生成
定制单跳查询
定制多跳查询
应用
应用
指标
指标
成本分析
评估多轮对话
使用 Vertex AI 模型进行评估
测试集生成
测试集生成
单跳查询测试集
基准测试
基准测试
Gemini 模型基准测试
集成
集成
Arize
Amazon Bedrock
Haystack
Griptape
LangChain
LangGraph
LangSmith
LlamaIndex
LlamaStack
R2R
Swarm
迁移
迁移
从 v0.1 到 v0.2
📖 参考
📖 参考
核心
核心
Prompt
LLMs
Embeddings
RunConfig
Executor
缓存
评估
评估
Schemas
指标
evaluate()
测试集生成
测试集生成
Schemas
图
Transforms
Synthesizers
生成
集成
❤️ 社区
📚 核心概念
组件
组件指南
本指南概述了 Ragas 内部使用的各种组件。
Prompt 对象
评估样本
评估数据集
返回顶部