流畅性错误上的通过

Discover tools, trends, and innovations in eu data.
Post Reply
rochona
Posts: 324
Joined: Thu May 22, 2025 5:30 am

流畅性错误上的通过

Post by rochona »

我们发现,随着模型的训练,NND 在一致性和率下降,而在连贯性和相关性测试上的通过率上升。这一令人惊讶的结果揭示了用于训练模型的监督式教师强制训练的训练动态:模型逐渐学会变得更加抽象,但牺牲了事实一致性和流畅性。

更多信息和资源
请参阅论文了解更多实验和技术细节。论文重点指出,NND 与手动模型排名的相关性优于自动指标,并探讨了 NND 框架的优势和局限性。一些重要的局限性包括 NND 对模型似然值和先验模型误差的 瑞士 whatsapp 移动数据库 依赖,以及我们仅在三个英语语言任务上测试了 NND 评估。
我们还在 GitHub 上提供了代码(salesforce/nnd_evaluation),其中包含几行示例,说明如何使用现有的 NND 测试集评估您的 NLG 模型。
您是否有可以重新用于 NND 评估的注释?请联系我们(通过电子邮件或创建 GitHub 问题)贡献用于新任务和新语言的 NND 测试集,以造福社区。
EMNLP 2022 论文链接:
关于作者
Philippe Laban 是纽约 Salesforce Research 的一名研究科学家,致力于 NLP 和 HCI 交叉领域的研究,特别关注文本生成任务的评估,包括总结、简化和问题生成。
Post Reply