跳到内容
Ragas
指标
正在初始化搜索
explodinggradients/ragas
🚀 开始
📚 核心概念
🛠️ 操作指南
📖 参考
❤️ 社区
Ragas
explodinggradients/ragas
🚀 开始
🚀 开始
安装
评估您的第一个 LLM 应用
评估一个简单的 RAG
为 RAG 生成合成测试集
📚 核心概念
📚 核心概念
组件
组件
通用
通用
提示
评估
评估
评估样本
评估数据集
指标
指标
概述
可用指标
可用指标
检索增强生成
检索增强生成
上下文精度
上下文召回率
上下文实体召回率
噪声敏感性
响应相关性
忠实度
Nvidia 指标
Nvidia 指标
答案准确性
上下文相关性
响应可靠性
Agent 或工具使用场景
Agent 或工具使用场景
Agentic 或工具使用
主题一致性
工具调用准确性
Agent 目标准确性
自然语言比较
自然语言比较
事实正确性
语义相似性
传统非 LLM 指标
传统非 LLM 指标
传统自然语言处理指标
非 LLM 字符串相似性
BLEU 分数
ROUGE 分数
字符串存在性
精确匹配
SQL
SQL
SQL
基于执行的 Datacompy 分数
SQL 查询等效性
通用
通用
通用指标
方面评论
简单标准评分
基于评分标准的评分
实例特定评分标准评分
其他任务
其他任务
摘要
测试数据生成
测试数据生成
RAG
RAG
为 RAG 生成测试集
知识图谱构建
场景生成
Agent 或工具使用
Agent 或工具使用
为 Agent 或工具使用场景生成测试集
反馈智能
反馈智能
🛠️ 操作指南
🛠️ 操作指南
自定义
自定义
通用
通用
自定义模型
运行配置
缓存
指标
指标
修改提示
使指标适应不同语言
编写您自己的指标
编写您自己的指标 - (高级)
测试集生成
测试集生成
非英文测试集生成
人物角色生成
自定义单跳查询
自定义多跳查询
应用
应用
指标
指标
成本分析
评估多轮对话
使用 Vertex AI 模型进行评估
测试集生成
测试集生成
单跳查询测试集
基准测试
基准测试
对 Gemini 模型进行基准测试
集成
集成
Arize
Amazon Bedrock
Haystack
Griptape
LangChain
LangGraph
LangSmith
LlamaIndex
LlamaStack
R2R
Swarm
迁移
迁移
从 v0.1 到 v0.2
📖 参考
📖 参考
核心
核心
提示
LLMs
Embeddings
RunConfig
Executor
Cache
评估
评估
Schemas
指标
evaluate()
测试集生成
测试集生成
Schemas
Graph
Transforms
Synthesizers
Generation
集成
❤️ 社区
📚 核心概念
指标
指标
概述
了解有关概述和设计原则的更多信息
可用指标
了解可用指标及其内部工作原理
回到顶部