跳转到内容

Ragas 答疑时间 - 如果您在为您的 AI 应用设置评估时需要帮助，请在此处报名参加我们的答疑时间。

Ragas

评估指标

正在初始化搜索

vibrantlabsai/ragas

🚀 快速入门
📚 核心概念
🛠️ 操作指南
📖 参考文档
❤️ 社区

Ragas

vibrantlabsai/ragas

🚀 快速入门
🚀 快速入门
- 安装
- 快速开始
- 教程
  教程
📚 核心概念
📚 核心概念
- 实验
- 数据集
- 评估指标
  评估指标
  - 概述
  - 可用指标
    
    可用指标
    
    检索增强生成
    检索增强生成
    
    上下文精确率
    
    上下文召回率
    
    上下文实体召回率
    
    噪声敏感度
    
    响应相关性
    
    忠实度
    
    Nvidia 指标
    Nvidia 指标
    
    答案准确率
    
    上下文相关性
    
    响应依据性
    
    智能体或工具使用案例
    智能体或工具使用案例
    
    智能体或工具使用
    
    主题一致性
    
    工具调用准确率
    
    工具调用 F1 分数
    
    智能体目标准确率
    
    自然语言比较
    自然语言比较
    
    事实正确性
    
    语义相似度
    
    传统的非 LLM 指标
    传统的非 LLM 指标
    
    传统 NLP 指标
    
    非 LLM 字符串相似度
    
    BLEU 分数
    
    CHRF 分数
    
    ROUGE 分数
    
    字符串存在性
    
    完全匹配
    
    SQL
    SQL
    
    SQL
    
    基于执行的 Datacompy 分数
    
    SQL 查询等效性
    
    通用目的
    通用目的
    
    通用目的指标
    
    方面评价
    
    简单标准评分
    
    基于评分细则的评分
    
    实例特定评分细则评分
    
    其他任务
    其他任务
    
    摘要
- 测试数据生成
  测试数据生成
  - RAG
    RAG
    
    为 RAG 生成测试集
    
    知识图谱构建
    
    场景生成
  - 智能体或工具使用
    智能体或工具使用
    
    为智能体或工具使用案例生成测试集
- 组件
  组件
  - 通用
    通用
    
    提示
  - 评估
    评估
    
    评估样本
    
    评估数据集
🛠️ 操作指南
🛠️ 操作指南
- 自定义
  自定义
  - 通用
    通用
    
    自定义模型
    
    运行配置
    
    缓存
    
    取消任务
  - LLM 适配器
  - 评估指标
    评估指标
    
    修改提示
    
    适配语言的指标
    
    编写您自己的指标
    
    编写您自己的指标 - (高级)
    
    训练和对齐指标
  - 测试集生成
    测试集生成
    
    非英语测试集生成
    
    角色生成
    
    自定义单跳查询
    
    自定义多跳查询
- 应用
  应用
  - 提示评估
    提示评估
    
    迭代和改进提示
    
    系统化提示优化
  - 评估指标
    评估指标
    
    成本分析
    
    评估多轮对话
    
    使用 Vertex AI 模型进行评估
  - 测试集生成
    测试集生成
    
    单跳查询测试集
  - 基准测试
    基准测试
    
    评估一个新的 LLM
  - 智能体评估
    智能体评估
    
    评估一个文本到 SQL 的智能体
    
    对齐一个作为裁判的 LLM
  - RAG 评估
    RAG 评估
    
    评估和改进一个 RAG 应用
- 集成
  集成
  - Arize
  - Amazon Bedrock
  - Google Gemini
  - Haystack
  - Griptape
  - LangChain
  - OCI Gen AI
  - LangGraph
  - LangSmith
  - LlamaIndex RAG
  - LlamaIndex 智能体
  - LlamaStack
  - R2R
  - Swarm
- 迁移
  迁移
  - 从 v0.1 到 v0.2
  - 从 v0.3 到 v0.4
📖 参考文档
📖 参考文档
- 核心
  核心
  - 提示
  - LLMs
  - 嵌入
  - RunConfig
  - 执行器
  - 缓存
- 评估
  评估
- 测试集生成
  测试集生成
  - 模式
  - 图
  - 转换
  - 合成器
  - 生成
- 集成
❤️ 社区

📚 核心概念
评估指标

评估指标

概述了解更多关于概述和设计原则
可用指标 了解可用指标及其内部工作原理

2025年10月28日 2025年10月28日 GitHub

使用 Material for MkDocs Insiders 制作