在当前的人工智能领域,大型基础模型如ChatGPT和DALL-E,通过预训练获得广泛数据后,被广泛应用于各种任务,如图像生成或客户问题回答。然而,这些模型有时也会出现误导性的错误,特别是在自动驾驶等关键场景下,错误可能导致严重后果。
麻省理工学院(MIT)与MIT-IBM Watson AI Lab的研究人员开发了一种技术,用于在部署基础模型前评估其可靠性。他们通过比较一系列略有差异的基础模型,使用算法检测模型在相同测试数据上的一致性。如果表现一致,模型便被认为是可靠的。
01
技术优势
与现有技术相比,此方法更有效地评估了模型在多种下游任务中的可靠性。它允许用户在无需实际数据集测试的情况下,预判模型的适用性,特别是在难以获取数据集(如医疗保健)的场景中非常有用。
此外,这种技术还能根据可靠性评分为模型排名,帮助选择最合适的模型。
02
研究方法
在基础模型的传统训练中,这些模型通常被用来执行特定任务,并在未知下游任务的情况下进行预训练。为了评估这些模型的可靠性,研究者采用了一个集成方法,通过训练多个略有不同但相同属性的模型,并通过共识方法来评估它们。这种方法称为“邻域一致性”,研究人员通过测试一组稳定的参考点来检测每个模型在数据点附近的表现。
这一技术尽管在多种分类任务上表现优秀,但它的主要限制是需要训练多个基础模型,这在计算上成本很高。未来,研究人员计划通过对单个模型进行微小的扰动来寻找更高效的评估方法。
斯坦福大学的Marco Pavone教授指出,随着越来越多使用基础模型的嵌入来支持各种任务,从微调到检索增强生成,对嵌入层面的不确定性进行量化变得极其重要。这项研究通过提出的邻域一致性得分,有效地捕捉了输入之间的关系,是朝着高质量嵌入模型不确定性量化迈出的有希望的一步。
© 版权声明
THE END
暂无评论内容