一定的天文学和物

Discover tools, trends, and innovations in eu data.
Post Reply
rochona
Posts: 324
Joined: Thu May 22, 2025 5:30 am

一定的天文学和物

Post by rochona »

回顾一下我们的生成式问答示例。想象一下 Shiny-new-QA 的答案是:


“通过在小行星的路径上制造一个黑洞来吸收它。”—— Shiny-New-QA 的第 3 个回答

如果我们将 GPT3-davinci 的答案作为参考(因为航天器答案获得了 1/1 的分数)并根据新答案与其的相似性对其进行评分,那么产生新颖且可能更好的解决方案的新模型将受到不公平的惩罚。

更进一步说,要正确评估答案的质量,评估者需要具备理学背景,以便理解和判断所提答案的质量。从某种意义上说,对于创意文本生成任务来说,评估至少与生成任务本身一样困难。

近负面区分:自动评估为人类评估注释提供了第二次生命。


在近负区分 (NND) 框架中,评估模型的方式并非像其他自动评估那样,通过将模 多米尼加共和国 whatsapp 移动数据库 型的输出与唯一真实参考进行比较来评估模型,而是根据模型生成两个现有候选集(质量参差不齐)的可能性来评估模型。如果模型更有可能生成人类评分更高的候选集(例如航天器改道),则根据 NND,该模型的得分会更高,这与人类先前的评估结果一致。


我们不是要求新模型生成自己的输出,而是观察它们生成我们已经注释的输出的可能性,并观察它们是否更有可能生成好的候选(航天器转移),并避免较差的候选(轨道航天飞机)。

NND评估
让我们来看看 NND 在实践中是如何运作的。



首先,我们使用带注释的候选句子创建NND 测试,这些测试对应于已知偏好的候选句子对。在本例中,我们优先选择标记为“无错误”的候选句子,而不是其他任何候选句子(例如“不流利”或“不符合事实”)。请注意,我们不会使用未知偏好顺序的句子对(例如,候选句子 2 与 3)创建 NND 测试。
Post Reply