—— GPT3-davinci 的回答 1
“将航天飞机发射到绕其运行的轨道上” – Macaw-11b 的第 2 个回答
注释者对 GPT3-davinci 的答案给予了充分的评价(100%),而 Macaw-11b 则没有获得任何评价(0%)。
通过对大量问题的模型答案进行标注,GPT3-davinci 的平均得分为 65%,Macaw-11b 的平均得分为 75%。研究结论:Macaw-11b 在回答常识性问题方面优于 GPT3-davinci。
研究完成后,人工注释的问题就会出现。
不可避免地,一个新的 QA 模型(称之为 Shiny-new-QA)会出现,研究之前的模型进行比较,以了解它是否更好,以及如果更好,进步多少。有两种选择:研究扩展,即通过在原始输入上标记新的模型输 丹麦 whatsapp 移动数据库 出来扩展原始研究;或者从头开始进行研究。这两种选择都存在局限性,因为通常不可能招募原始研究的注释者,这降低了在扩展研究时进行公平且可重复的比较的可能性。选择创建新的研究会放弃之前的注释工作,研究人员需要花费高昂的成本来开展一项新研究,仅仅是为了评估一个模型。
作为人工评估的替代,基于参考的自动评估是评估 NLG 模型的一种流行方法。
“如果可以自动化,为什么还需要手工劳动呢?”
自动评估需要一次性成本,用于为一组保留的输入收集黄金标准输出(或参考)。然后,通过测量输出与参考的相似程度来评估现有和未来的模型。准确评估文本相似度是一个棘手的课题,但方法主要分为两类:基于模型输出与参考之间词汇重叠度的 n-gram 重叠度测量(BLEU、ROUGE 等)和基于神经网络的测量(BERTScore 等),其中训练有素的神经网络评估相似度。基于参考的评估适用于偏差空间有限的 NLG 任务,例如翻译,其中与单个参考的相似度足以评估质量。然而,许多 NLG 任务(例如摘要、对话响应生成等等)都是开放式的,适合单参考比较。