跳转到内容
Ragas
组件指南
正在初始化搜索
vibrantlabsai/ragas
🚀 快速入门
📚 核心概念
🛠️ 操作指南
📖 参考文档
❤️ 社区
Ragas
vibrantlabsai/ragas
🚀 快速入门
🚀 快速入门
安装
快速开始
教程
教程
评估提示
评估一个简单的 RAG 系统
评估一个 AI 工作流
评估一个 AI 智能体
📚 核心概念
📚 核心概念
实验
数据集
评估指标
评估指标
概述
可用指标
可用指标
检索增强生成
检索增强生成
上下文精确率
上下文召回率
上下文实体召回率
噪声敏感度
响应相关性
忠实度
Nvidia 指标
Nvidia 指标
答案准确率
上下文相关性
响应依据性
智能体或工具使用案例
智能体或工具使用案例
智能体或工具使用
主题一致性
工具调用准确率
工具调用 F1 分数
智能体目标准确率
自然语言比较
自然语言比较
事实正确性
语义相似度
传统的非 LLM 指标
传统的非 LLM 指标
传统 NLP 指标
非 LLM 字符串相似度
BLEU 分数
CHRF 分数
ROUGE 分数
字符串存在性
完全匹配
SQL
SQL
SQL
基于执行的 Datacompy 分数
SQL 查询等效性
通用目的
通用目的
通用目的指标
方面评价
简单标准评分
基于评分细则的评分
实例特定评分细则评分
其他任务
其他任务
摘要
测试数据生成
测试数据生成
RAG
RAG
为 RAG 生成测试集
知识图谱构建
场景生成
智能体或工具使用
智能体或工具使用
为智能体或工具使用案例生成测试集
组件
组件
通用
通用
提示
评估
评估
评估样本
评估数据集
🛠️ 操作指南
🛠️ 操作指南
自定义
自定义
通用
通用
自定义模型
运行配置
缓存
取消任务
LLM 适配器
评估指标
评估指标
修改提示
适配语言的指标
编写您自己的指标
编写您自己的指标 - (高级)
训练和对齐指标
测试集生成
测试集生成
非英语测试集生成
角色生成
自定义单跳查询
自定义多跳查询
应用
应用
提示评估
提示评估
迭代和改进提示
系统化提示优化
评估指标
评估指标
成本分析
评估多轮对话
使用 Vertex AI 模型进行评估
测试集生成
测试集生成
单跳查询测试集
基准测试
基准测试
评估一个新的 LLM
智能体评估
智能体评估
评估一个文本到 SQL 的智能体
对齐一个作为裁判的 LLM
RAG 评估
RAG 评估
评估和改进一个 RAG 应用
集成
集成
Arize
Amazon Bedrock
Google Gemini
Haystack
Griptape
LangChain
OCI Gen AI
LangGraph
LangSmith
LlamaIndex RAG
LlamaIndex 智能体
LlamaStack
R2R
Swarm
迁移
迁移
从 v0.1 到 v0.2
从 v0.3 到 v0.4
📖 参考文档
📖 参考文档
核心
核心
提示
LLMs
嵌入
RunConfig
执行器
缓存
评估
评估
模式
评估指标
evaluate()
aevaluate()
测试集生成
测试集生成
模式
图
转换
合成器
生成
集成
❤️ 社区
📚 核心概念
组件
组件指南
本指南概述了 Ragas 内部使用的不同组件。
Prompt 对象
评估样本
评估数据集
返回顶部