✨ 介绍
Ragas 是一个提供工具的库,可以极大地增强大型语言模型 (LLM) 应用的评估能力。它旨在帮助您轻松、自信地评估您的 LLM 应用。
🚀 开始使用
使用 pip
安装并通过这些教程开始使用 Ragas。
开始使用
📚 核心概念
深入解释和讨论 Ragas 中可用不同功能的概念和工作原理。
核心概念
🛠️ 操作指南
实践指南,帮助您实现特定目标。查阅这些指南,了解如何使用 Ragas 解决实际问题。
操作指南
📖 参考资料
Ragas 类和方法工作原理的技术描述。
参考资料
常见问题
▶ 哪个是最好用的开源模型?
对于这个问题没有一个唯一的正确答案。随着 AI 模型开发的快速进展,每周都有新的开源模型发布,并且经常声称性能优于之前的版本。最适合您的模型很大程度上取决于您的 GPU 容量以及您正在处理的数据类型。探索具有强大通用能力、被广泛接受的最新模型是个好主意。您可以参考
此列表 ,查看可用的开源模型、它们的发布日期和微调变体。
▶ 为什么评估结果中会出现 NaN 值?
NaN 代表“非数字”。在 Ragas 评估结果中,出现 NaN 主要有两个原因:
JSON 解析问题: 模型的输出无法解析为 JSON。Ragas 要求模型输出 JSON 兼容的响应,因为所有提示词都是使用 Pydantic 构建的。这确保了 LLM 输出的高效解析。
不适合评分的情况: 样本中的某些情况可能不适合评分。例如,对像“我不知道”这样的回复进行忠实性评分可能就不合适。
▶ 如何使评估结果更具解释性?
最好的方法是追踪和记录您的评估过程,然后使用 LLM 追踪来检查结果。您可以在
此处 查看此过程的详细示例。
January 23, 2025 January 23, 2025 GitHub +1