EU Data

Posted: **Sat Jun 14, 2025 4:34 am**

示例用例

salesforce einstein botbuilder 的端到端评估

“模板机器人”是 salesforce einstein botbuilder 平台的预构建机器人。它包含六个对话，其中包含手动编写的训练语句。我们保留每个对话 150 个语句作为训练集 (train-original)，用于训练意图模型，其余语句用于评估 (eval-original)。这六个意图分别是：“转接给客服人员 (ta)”、“结束聊天 (ec)”、“联系销售人员 (cs)”、“查看问题状态 (ci)”、“查看订单状态 (co)”和“报告问题 (ri)”。

我们发现 botsim 可以通过释义和对话用户模拟进行数据高效评估。

* 目标生成和对话模拟。为了模场景，我们将释义模型应用于 150 条意图训练语句，生成释义意图查询。这些查询随后被纳入模拟目标实例，并通过对话模拟测试意图模型的性能。释义完成后，我们将意图查询集（“train-paraphrases”）的大小增加到原始意图语句（“eval-original”）的十倍，以便更好地捕捉真实用户意图查询中的语言差异。
* 应用补救建议：使用增强训练集对意图模型进行再训练。最后，我们可以应哥伦比亚 whatsapp 移动数据库用补救建议来改进机器人意图模型。在这里，我们将“train-paraphrases”集中推荐的错误分类意图释义添加到“train-original”集中，形成“train-augmented”集，并重新训练意图模型。之后进行另一轮对话模拟，以测试重新训练后的意图模型。然后，我们比较了重新训练前后的性能（使用 10,000 个引导样本计算的 95% 置信区间的 f1）。我们观察到，在模型重新训练后，“eval-original”集的所有意图都得到了持续的提升，尤其是那些最具挑战性的意图（f1 值较低），例如“报告问题 (ri)”和“联系销售 (cs)”。

用于 google dialogflow cx 平台部署前测试的多意图对话生成

虽然 google dialogflow cx 提供了一些测试功能，但它们专为回归测试而设计，旨在确保先前开发的机器人模型在更改后仍然能够正常运行。用户需要探索对话路径并手动与机器人聊天，以注释对话并将其保存为回归测试用例。在本案例研究中，我们展示了 botsim 如何使用内置的“金融服务”大型机器人对 dialogflow cx 机器人进行部署前测试和性能分析。

EU Data

拟部署前的测试

拟部署前的测试