3月4日监督学习是训练ML模型的传统方式
需要大量的标记数据集。例如,要训练图像分类机器学习模型,您必须首先收集数百万张图像并指定每张图像的类别。然后,在训练期间,您的 ML 模型会调整其参数以将每个图像映射到其各自的类。
数据标记是一项缓慢、费力和昂贵的任务。在某些应用程序中,它需要主题专家的帮助,他们没有时间标记数百万个示例。在其他情况下,没有足够的数据来训练 ML 模型。
标记数据短缺的一种解决方案是使用迁移学习,其中模型首先在具有数百万标记图像的公共数据集(例如 ImageNet)上进行训练,然后在目标应用程序的更有限的标记数据数据集上进行微调。
对比学习提供了监督迁移学习的替代方案。对比学习不是使用标记示例,而是在未标记示例的不同视图上训练 ML 模型。ML 模型的性能是根据其学习表示在同一图像的不同视图中的泛化程度来评估的。
实验表明,对比学习对于各种分类任务非常有效,尤其是在医疗保健等未标记数据丰富而标记数据稀缺的领域。在这种情况下,目标 ML 模型可以通过对比学习对数据集的未标记部分进行预训练,然后通过监督学习对标记数据进行微调。
“对比学习为我们提供了一种有效的方法来以无监督的方式从数据集中学习可概括的特征。它已被证明在图像识别、语音、对象检测和自然语言处理任务等各个领域都很有用,”麻省理工学院博士生、该论文的主要作者 Lijie Fan 告诉TechTalks。“这种‘预训练和微调’策略是当前人工智能技术采用的一种流行技术,因为 CL 提供了一个强大的预训练模型,可以有效地进行微调以解决不同的下游任务。”