📚 核心概念 实验 了解如何使用实验来系统地评估您的 AI 应用程序。 跟踪变更、衡量改进,并比较应用程序不同版本之间的结果。 数据集 了解如何创建、管理和使用评估数据集。 学习有关数据集结构、存储后端以及维护测试数据的最佳实践。 : Ragas 指标 使用我们的可用指标库,或根据您的用例创建自定义指标。 用于评估 RAG、Agentic 工作流以及更多的指标。 测试数据生成 生成高质量的数据集以进行全面测试。 用于合成数据以测试 RAG、Agentic 工作流的算法。