监督式机器学习 模型(例如,经过训练以预测实例结果(例如,批准或拒绝贷款)的分类模型)需要在生产环境中保持高精度 确保有更多的真阳性、真阴性和更少的假阳性、假阴性。为了保持 最佳 模型性能,这些模型需要定期重新训练,以避免任何性能下降问题。
重新训练 模型的一种常见方法是让人类调 多米尼加共和国电话号码数据 查员标记新的数据集,但人类调查员可以标记的数据量取决于标记数据集所需的成本和时间。常见的问题是标记新数据集需要花费多少钱?有没有其他更快、更便宜、更好的数据标记方法?答案是主动学习,它是 机器学习 选择性地挑选需要标记的数据点,以实现最佳的 模型改进。
什么是主动学习?
主动学习是机器学习的一个子集,其中学习算法可以以交互方式查询用户以使用所需输出标记数据。在主动学习中,算法选择要由人工注释者标记的示例子集,而不是标记整个数据集。这个子集可能是靠近决策边界的数据点,模型通常很难确定特定数据点应该属于哪个类,从而导致其性能下降。通过仅选择数据子集进行标记,标记新数据点以进行模型再训练的总体成本和时间会减少,而不会影响性能改进。