因为大多数文本生成模

Discover tools, trends, and innovations in eu data.
Post Reply
rochona
Posts: 324
Joined: Thu May 22, 2025 5:30 am

因为大多数文本生成模

Post by rochona »

其次,我们计算新模型(例如 Shiny-new-QA)为每个候选词分配的概率。这是可行的,型都是语言模型,可以为任意单词序列分配概率。


第三,我们进行每项 NND 测试。如果被评估的模型为高质量候选集分配了更高的概率,则该模型通过测试(测试 1-2、4-2 和 1-5),否则,该模型未通过测试(测试 1-3、4-3、4-5)。


NND 结果以两种方式汇总。首先,通用结果以测试通过率的总体百分比计算。在本例中,模型通过了 3/6 项 NND 测试,总体通过率为 50%。通用 NND 结果对于模型比较很有用,因为它是一个单一的数字。

通过查看涉及特定错误类别的测试的通过率,可以计算出更详细的结果。在我们的示例中,模型通过了 3/4 个涉及“不流畅”错误的 NND 测试(通过率为 75%),以及 0/2 个涉及“非事实”错误的 NND 测试。详细的 NND 细分有助于检查模型的优势和劣势。

这就是理论,现在让我们看看如何在实践中使用 NND。

应用 NND 评估
问题生成(QG)
我们根据测验设计注释[1]创建了一个 NND 测试集,其中教师评估了阅读理解测验中是否应该包含问题。


在研究期间,作者评估了 7 个模型,发现较新、较大的 QG 模型(例如 MixQG-Large)生成的问题明显优于较小、较旧的模型。由于研究期间的延迟问题,最大的模型规模 (3B) 以及当时尚 瑞典 whatsapp 移动数据库 未发布的较新的 Macaw 模型未能纳入研究。

在研究中,更新、更大的模型会如何比较?


我们用 NND 评估来推断。


MixQG-3B 的通过率最高,比原始研究中表现最佳的 MixQG-Large 提高了 2%。对于好奇的读者,NND 论文利用错误类别注释进行了更详细的分析,结果表明,尽管 Macaw-3B 的整体表现并不优于 MixQG-3B,但它在避免不流畅错误方面取得了最佳表现。

总结
NND 的另一个优点是它不需要生成候选,这既需要计算成本,又会引入混杂因素:解码策略(我的模型更好是因为我使用了更奇特的解码策略,还是因为底层模型更好)。

此外,由于 NND 评估在计算上相对便宜,它不仅可以应用于最终模型,还可以应用于训练期间的临时模型检查点。

为了证明可行性,我们利用 SummEval[2] 创建了一个 NND 测试集,并在训练期间使用它来评估 Bart-Large 模型,每 200 个梯度步骤进行一次 NND 评估。
Post Reply