Page 1 of 1

过重新利用先前的

Posted: Sat Jun 14, 2025 4:37 am
by rochona
简而言之:我们引入了一种自动化方法,通人工评估数据来评估 AI 生成文本的质量。该方法名为“近负区分”,要求被评估的模型通过一系列测试来衡量模型是否能够避免先前模型的错误(即“近负区分”)。我们在三个文本生成任务上实现了 NND,并表明它与其他常用指标相比,与人工对模型的排名具有更高的相关性。

(博客文章中的某些图像是使用 Dall-E 2 + 手动编辑生成的。)

文本生成领域的最新进展可以在许多领域和任务中追踪,从 100 多个一流的语言翻译模型,到书籍摘要或协作创意写作。NLG 模型能够做出创造性的决策并创作出看似新颖的内容,这令人兴奋不已。然而,文本生成的开放性也给该领域带来了一些难题:如何在许多答案都同样优秀的任务中评估模型性能。让我们来看一个例子。

激励人心的例子
让我们思考一下如何评估一个经过训练可以回答各种问题的人工智能模型。最近的模型在回答 捷克共和国 whatsapp 移动数据库​ 需要常识和推理能力的问题方面做得越来越好。例如,当问 GPT-3“如果我把一些奶酪放进冰箱,它会融化吗? ”时,它回答“不会,它会变得又冷又硬。”

研究人员对一系列 300 个问题(称为挑战 300 数据集)进行了注释,对来自多个 QA 模型的答案进行了评分,以研究它们何时成功以及何时失败。

我们来看一个具体的例子。假设有这样一个问题:“如何才能改变一颗直接撞击地球的小行星的方向?”


该数据集包含多个模型的输出,每个模型的评分为 0 或 1,具体取决于人工注释者对答案的判断是否正确。例如,GPT3-Davinci 和 Macaw-11b 的答案为:


改变小行星轨道最有效的方法是用航天器将其稍微推离轨道。这可以通过用航天器推动小行星来实现。