主动学习抽样

Discover tools, trends, and innovations in eu data.
Post Reply
asimd23
Posts: 426
Joined: Mon Dec 23, 2024 3:53 am

主动学习抽样

Post by asimd23 »

验证码 和 验证码 都是为了欺骗人们标记庞大的数据集(当然,也是为了证明用户是正在上网的真实的人)。

即使您可以使用此类技术,您的数据也可能无法在组织外部共享,或者可能需要特定领域的专业知识,并且您需要确保标记行的用户是可信的。这种可信资源是昂贵的、不可替代的、很快就会感到无聊的领域专家,他们自己标记成千上万的数据点/行。数据集的每一行可能包含任何类型的数据,并且可以以非常不同的格式显示给专家。例如,它可以显 自雇数据 示为图表、文档或图像 - 实际上是任何东西。需要标记数据的企业将面临一个漫长、痛苦且昂贵的过程。那么,我们如何才能有效地改进标记过程以节省金钱和时间呢?嗯,解决方案是一种称为主动学习的技术!

在主动学习过程中,人类被带回流程中——人类被带回循环中并帮助指导算法。这个想法很简单:并非所有示例都具有同等的学习价值,因此首先,该过程会选择它认为对学习最有价值的示例,然后人类会给它们贴上标签,使算法能够从中学习。这个循环(或循环)一直持续到学习模型收敛,或者用户决定退出应用程序。

为了初始化这个迭代过程,我们需要一些起始标签,但由于我们根本没有标签,因此我们几乎无法选择首先标记哪些行。系统会随机挑选几行,并将它们展示给我们的专家,然后获取手动应用的标签。现在,仅基于少量标签,我们就可以训练第一个模型。这个初始模型可能存在很大偏差,因为它是在很少的样本上进行训练的。但这只是第一步。现在我们准备通过迭代来改进模型。
Post Reply