因为大多数文本生成模

rochona · Post by **rochona** » Sat Jun 14, 2025 7:02 am

其次，我们计算新模型（例如 Shiny-new-QA）为每个候选词分配的概率。这是可行的，型都是语言模型，可以为任意单词序列分配概率。

第三，我们进行每项 NND 测试。如果被评估的模型为高质量候选集分配了更高的概率，则该模型通过测试（测试 1-2、4-2 和 1-5），否则，该模型未通过测试（测试 1-3、4-3、4-5）。

NND 结果以两种方式汇总。首先，通用结果以测试通过率的总体百分比计算。在本例中，模型通过了 3/6 项 NND 测试，总体通过率为 50%。通用 NND 结果对于模型比较很有用，因为它是一个单一的数字。

通过查看涉及特定错误类别的测试的通过率，可以计算出更详细的结果。在我们的示例中，模型通过了 3/4 个涉及“不流畅”错误的 NND 测试（通过率为 75%），以及 0/2 个涉及“非事实”错误的 NND 测试。详细的 NND 细分有助于检查模型的优势和劣势。

这就是理论，现在让我们看看如何在实践中使用 NND。

应用 NND 评估
问题生成（QG）
我们根据测验设计注释[1]创建了一个 NND 测试集，其中教师评估了阅读理解测验中是否应该包含问题。

在研究期间，作者评估了 7 个模型，发现较新、较大的 QG 模型（例如 MixQG-Large）生成的问题明显优于较小、较旧的模型。由于研究期间的延迟问题，最大的模型规模 (3B) 以及当时尚瑞典 whatsapp 移动数据库未发布的较新的 Macaw 模型未能纳入研究。

在研究中，更新、更大的模型会如何比较？

我们用 NND 评估来推断。

MixQG-3B 的通过率最高，比原始研究中表现最佳的 MixQG-Large 提高了 2%。对于好奇的读者，NND 论文利用错误类别注释进行了更详细的分析，结果表明，尽管 Macaw-3B 的整体表现并不优于 MixQG-3B，但它在避免不流畅错误方面取得了最佳表现。

总结
NND 的另一个优点是它不需要生成候选，这既需要计算成本，又会引入混杂因素：解码策略（我的模型更好是因为我使用了更奇特的解码策略，还是因为底层模型更好）。

此外，由于 NND 评估在计算上相对便宜，它不仅可以应用于最终模型，还可以应用于训练期间的临时模型检查点。

为了证明可行性，我们利用 SummEval[2] 创建了一个 NND 测试集，并在训练期间使用它来评估 Bart-Large 模型，每 200 个梯度步骤进行一次 NND 评估。