基于大模型检索增强生成（RAG）系统有哪些好用的评估方案？

作者：吕阿华

链接：https://www.zhihu.com/question/649128048/answer/3438781301

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

论文1：《Evaluating RAG Applications with RAGAs》

简介

第一篇文章介绍了一个用于评估RAG应用的框架，称为RAGAs(Retrieval-Augmented Generation Assessment)，这篇文章详细介绍了RAGAS框架，它的核心目标是提供一套综合性的评估指标和方法，以量化地评估RAG管道(RAG Pipeline)在不同组件层面上的性能。RAGAs特别适用于那些结合了检索（Retrieval）和生成（Generation）两个主要组件的RAG系统。

评估体系(原文Evaluation Metrics部分)

文章Evaluation Metrics部分介绍了RAGAs的评估体系：

无参考评估：RAGAs最初设计为一种“无参考”评估框架，意味着它不依赖于人工注释的真实标签，而是利用大型语言模型（LLM）进行评估。

组件级评估：RAGAs允许对RAG管道的两个主要组件——检索器和生成器——分别进行评估。这种分离评估方法有助于精确地识别管道中的性能瓶颈。

检索器和生成器的性能表

综合性评估指标：RAGAs提供了一系列评估指标，包括上下文精度(Context Precision)、上下文召回(Context Recall)、忠实度(Faithfulness)和答案相关性(Answer Relevancy)。这些指标共同构成了RAGAs评分，用于全面评估RAG管道的性能。

评估流程(原文Evaluating a RAG Application with RAGAs部分)

RAGAs的评估流程在文中有比较详细的描述，在此只摘抄关键字。

开始：启动准备和设置RAG应用的过程。
数据准备：加载和分块处理文档。
设置向量数据库：生成向量嵌入并存储在向量数据库中。
设置检索器组件：基于向量数据库设置检索器。
组合RAG管道：结合检索器、提示模板和LLM组成RAG管道。
准备评估数据：准备问题和对应的真实答案。
构建数据集：通过推理准备数据并构建用于评估的数据集。
评估RAG应用：导入评估指标并对RAG应用进行评估。
结束：完成评估过程。

整个流程如下图所示：

RAGAs评估流程

尽管构建一个概念验证（Proof-of-Concept）的RAG应用相对容易，但要使其性能达到生产就绪状态却非常困难。在拥有评估RAG应用性能的工具的基础上，读者们可以建立一个实验管道，并开始使用各种调优策略来调整性能。

原文地址

《Evaluating RAG Applications with RAGAs》towardsdatascience.com/evaluating-rag-applications-with-ragas-81d67b0ee31a

论文2：《Evaluating Verifiability in Generative Search Engines》

简介

这篇论文研究了生成式搜索引擎在应对用户查询时，其回应的可验证性(Verifiability)。一个值得信赖的生成式搜索引擎应具备高度的可验证性，即系统应全面（高引用召回率(Citation Recall)，所有陈述都有充分引用支持）且准确（高引用精确度(Citation Precision)，每个引用都支持其相关陈述）地引用资料。研究通过人类评估对四个流行的生成式搜索引擎 —— Bing Chat、NeevaAI、perplexity.ai 和 YouChat —— 在各种查询中的表现进行了审查。研究发现，尽管这些引擎的回应流畅且看似信息丰富，但经常包含未经支持的陈述和不准确的引用：平均而言，只有51.5%的生成句子得到了引用的完全支持，而仅有74.5%的引用支持其关联的句子。