跳到内容
Ragas
自定义测试数据生成
初始化搜索
explodinggradients/ragas
🚀 入门指南
📚 核心概念
🛠️ 操作指南
📖 参考资料
❤️ 社区
Ragas
explodinggradients/ragas
🚀 入门指南
🚀 入门指南
安装
评估您的第一个LLM应用
评估一个简单的RAG
为RAG生成合成测试集
📚 核心概念
📚 核心概念
组件
组件
通用
通用
Prompt
评估
评估
评估样本
评估数据集
评估指标
评估指标
概述
可用评估指标
可用评估指标
检索增强生成
检索增强生成
上下文精度
上下文召回率
上下文实体召回率
噪声敏感度
响应相关性
忠实度
Nvidia评估指标
Nvidia评估指标
答案准确性
上下文相关性
响应事实性
Agent或工具用例
Agent或工具用例
Agent或工具使用
主题一致性
工具调用准确性
Agent目标准确性
自然语言比较
自然语言比较
事实正确性
语义相似度
传统非LLM评估指标
传统非LLM评估指标
传统NLP评估指标
非LLM字符串相似度
BLEU得分
ROUGE得分
字符串存在性
精确匹配
SQL
SQL
SQL
基于执行的Datacompy得分
SQL查询等效性
通用目的
通用目的
通用目的评估指标
Aspect Critic
简单标准评分
基于评分标准的评分
实例特定评分标准的评分
其他任务
其他任务
摘要
测试数据生成
测试数据生成
RAG
RAG
为RAG生成测试集
知识图谱构建
场景生成
Agent或工具使用
Agent或工具使用
为Agent或工具使用用例生成测试集
反馈智能
反馈智能
🛠️ 操作指南
🛠️ 操作指南
自定义项
自定义项
通用
通用
自定义模型
运行配置
缓存
评估指标
评估指标
修改Prompt
使评估指标适应不同语言
编写您自己的评估指标
编写您自己的评估指标 - (高级)
测试集生成
测试集生成
非英语测试集生成
角色生成
自定义单跳查询
自定义多跳查询
应用
应用
评估指标
评估指标
成本分析
评估多轮对话
使用Vertex AI模型进行评估
测试集生成
测试集生成
单跳查询测试集
基准测试
基准测试
对Gemini模型进行基准测试
集成
集成
Arize
Amazon Bedrock
Haystack
Griptape
LangChain
LangGraph
LangSmith
LlamaIndex
LlamaStack
R2R
Swarm
迁移
迁移
从v0.1到v0.2
📖 参考资料
📖 参考资料
核心
核心
Prompt
LLMs
嵌入
RunConfig
执行器
缓存
评估
评估
Schema
评估指标
evaluate()
测试集生成
测试集生成
Schema
图
转换
合成器
生成
集成
❤️ 社区
自定义测试数据生成
合成测试集生成可以节省大量时间和精力来为AI应用创建测试数据集。我们正在努力为自定义测试集生成添加更多支持。如果您有任何特定要求或想就此进行合作,请
与我们联系
。
回到顶部