跳过内容

✨ 介绍

Ragas 是一个提供工具的库,可以极大地增强大型语言模型 (LLM) 应用的评估能力。它旨在帮助您轻松、自信地评估您的 LLM 应用。

  • 🚀 开始使用

    使用 pip 安装并通过这些教程开始使用 Ragas。

    开始使用

  • 📚 核心概念

    深入解释和讨论 Ragas 中可用不同功能的概念和工作原理。

    核心概念

  • 🛠️ 操作指南

    实践指南,帮助您实现特定目标。查阅这些指南,了解如何使用 Ragas 解决实际问题。

    操作指南

  • 📖 参考资料

    Ragas 类和方法工作原理的技术描述。

    参考资料

常见问题

哪个是最好用的开源模型?
对于这个问题没有一个唯一的正确答案。随着 AI 模型开发的快速进展,每周都有新的开源模型发布,并且经常声称性能优于之前的版本。最适合您的模型很大程度上取决于您的 GPU 容量以及您正在处理的数据类型。探索具有强大通用能力、被广泛接受的最新模型是个好主意。您可以参考此列表,查看可用的开源模型、它们的发布日期和微调变体。
为什么评估结果中会出现 NaN 值?
NaN 代表“非数字”。在 Ragas 评估结果中,出现 NaN 主要有两个原因:
  • JSON 解析问题: 模型的输出无法解析为 JSON。Ragas 要求模型输出 JSON 兼容的响应,因为所有提示词都是使用 Pydantic 构建的。这确保了 LLM 输出的高效解析。
  • 不适合评分的情况: 样本中的某些情况可能不适合评分。例如,对像“我不知道”这样的回复进行忠实性评分可能就不合适。
如何使评估结果更具解释性?
最好的方法是追踪和记录您的评估过程,然后使用 LLM 追踪来检查结果。您可以在此处查看此过程的详细示例。