Page 1 of 1

拟部署前的测试

Posted: Sat Jun 14, 2025 4:34 am
by rochona
示例用例

salesforce einstein botbuilder 的端到端评估

“模板机器人”是 salesforce einstein botbuilder 平台的预构建机器人。它包含六个对话,其中包含手动编写的训练语句。我们保留每个对话 150 个语句作为训练集 (train-original),用于训练意图模型,其余语句用于评估 (eval-original)。这六个意图分别是:“转接给客服人员 (ta)”、“结束聊天 (ec)”、“联系销售人员 (cs)”、“查看问题状态 (ci)”、“查看订单状态 (co)”和“报告问题 (ri)”。

我们发现 botsim 可以通过释义和对话用户模拟进行数据高效评估。

* 目标生成和对话模拟。为了模场景,我们将释义模型应用于 150 条意图训练语句,生成释义意图查询。这些查询随后被纳入模拟目标实例,并通过对话模拟测试意图模型的性能。释义完成后,我们将意图查询集(“train-paraphrases”)的大小增加到原始意图语句(“eval-original”)的十倍,以便更好地捕捉真实用户意图查询中的语言差异。
* 应用补救建议:使用增强训练集对意图模型进行再训练。最后,我们可以应 哥伦比亚 whatsapp 移动数据库​ 用补救建议来改进机器人意图模型。在这里,我们将“train-paraphrases”集中推荐的错误分类意图释义添加到“train-original”集中,形成“train-augmented”集,并重新训练意图模型。之后进行另一轮对话模拟,以测试重新训练后的意图模型。然后,我们比较了重新训练前后的性能(使用 10,000 个引导样本计算的 95% 置信区间的 f1)。我们观察到,在模型重新训练后,“eval-original”集的所有意图都得到了持续的提升,尤其是那些最具挑战性的意图(f1 值较低),例如“报告问题 (ri)”和“联系销售 (cs)”。

用于 google dialogflow cx 平台部署前测试的多意图对话生成

虽然 google dialogflow cx 提供了一些测试功能,但它们专为回归测试而设计,旨在确保先前开发的机器人模型在更改后仍然能够正常运行。用户需要探索对话路径并手动与机器人聊天,以注释对话并将其保存为回归测试用例。在本案例研究中,我们展示了 botsim 如何使用内置的“金融服务”大型机器人对 dialogflow cx 机器人进行部署前测试和性能分析。