什么是半监督机器学习

女人味
精选回答

2022年1月5日整理发布:机器学习已被证明在对图像和其他非结构化数据进行分类方面非常有效,而传统的基于规则的软件很难处理这一任务。但是在机器学习模型能够执行分类任务之前,它们需要在大量带注释的示例上进行训练。数据注释是一个缓慢且手动的过程,需要人类逐一审查训练示例并为其赋予正确的标签。

事实上,数据注释是机器学习的重要组成部分,该技术的日益普及为标记数据带来了巨大的市场。从亚马逊的 Mechanical Turk 到 LabelBox、ScaleAI 和 Samasource 等初创公司,有数十个平台和公司的工作是对数据进行注释以训练机器学习系统。

幸运的是,对于某些分类任务,您不需要标记所有训练示例。相反,您可以使用半监督学习,这是一种机器学习技术,可以在一些帮助下自动执行数据标记过程。

监督与无监督与半监督机器学习

您只需要用于监督机器学习任务的标记示例,您必须在训练期间为您的 AI 模型指定基本事实。监督学习任务的示例包括图像分类、面部识别、销售预测、客户流失预测和垃圾邮件检测。

另一方面,无监督学习处理您不知道基本事实并希望使用机器学习模型来查找相关模式的情况。无监督学习的例子包括客户细分、网络流量异常检测和内容推荐。

半监督学习介于两者之间。它解决了分类问题,这意味着您最终需要一个监督学习算法来完成任务。但与此同时,您希望在不标记每个训练示例的情况下训练模型,为此您可以从无监督机器学习技术中获得帮助。

使用聚类和分类算法的半监督学习

进行半监督学习的一种方法是结合聚类和分类算法。聚类算法是无监督机器学习技术,可根据数据的相似性将数据组合在一起。聚类模型将帮助我们在数据集中找到最相关的样本。然后我们可以标记这些并使用它们来训练我们的监督机器学习模型以进行分类任务。

假设我们想训练一个机器学习模型来对手写数字进行分类,但我们所拥有的只是一个包含未标记数字图像的大型数据集。注释每个示例是不可能的,我们希望使用半监督学习来创建您的 AI 模型。

首先,我们使用 k-means 聚类对我们的样本进行分组。K-means 是一种快速高效的无监督学习算法,这意味着它不需要任何标签。K-means 通过测量样本特征之间的距离来计算样本之间的相似性。在我们手写数字的情况下,每个像素都将被视为一个特征,因此 20×20 像素的图像将由 400 个特征组成。

在训练 k-means 模型时,您必须指定要将数据划分为多少个集群。自然地,由于我们正在处理数字,我们的第一个冲动可能是为我们的模型选择十个集群。但请记住,有些数字可以用不同的方式绘制。例如,您可以通过以下不同的方式绘制数字 4、7 和 2。您还可以考虑绘制 1、3 和 9 的各种方式。因此,一般情况下,您为 k-means 机器学习模型选择的聚类数应大于类数。在我们的例子中,我们将选择 50 个集群,这应该足以涵盖绘制数字的不同方式。

在训练 k-means 模型后,我们的数据将被分成 50 个集群。k-means 模型中的每个集群都有一个质心,一组值代表该集群中所有特征的平均值。我们选择每个集群中最具代表性的图像,它恰好是最接近质心的图像。这给我们留下了 50 张手写数字图像。

现在,我们可以标记这 50 张图像并使用它们来训练我们的第二个机器学习模型,即分类器,它可以是逻辑回归模型、人工神经网络、支持向量机、决策树或任何其他类型的监督学习引擎。

用 50 个示例而不是数千张图像训练机器学习模型听起来可能是个糟糕的主意。但由于 k-means 模型选择了最能代表我们训练数据集分布的 50 张图像,机器学习模型的结果将是显着的。事实上,上面的例子改编自优秀书籍Hands-on Machine Learning with Scikit-Learn、Keras 和 Tensorflow,表明仅在聚类算法选择的 50 个样本上训练回归模型的结果是 92%准确性(您可以在此 Jupyter Notebook 中找到 Python 中的实现)。相比之下,在 50 个随机选择的样本上训练模型会产生 80-85% 的准确率。

但是我们仍然可以从我们的半监督学习系统中获得更多。在我们标记了每个集群的代表性样本后,我们可以将相同的标签传播到同一集群中的其他样本。使用这种方法,我们可以用几行代码注释数千个训练示例。这将进一步提高我们机器学习模型的性能。

其他半监督机器学习技术

还有其他方法可以进行半监督学习,包括半监督支持向量机 (S3VM),这是 1998 年 NIPS 会议上引入的一种技术。S3VM 是一项复杂的技术,超出了本文的范围。但总体思路很简单,与我们刚刚看到的没有太大区别:您有一个由标记和未标记样本组成的训练数据集。S3VM 使用来自标记数据集的信息来计算未标记数据的类别,然后使用这些新信息进一步细化训练数据集。

如果您对半监督支持向量机感兴趣,请参阅原始论文并阅读Machine Learning Algorithms 的第 7 章,该章探讨了支持向量机的不同变体(可以在此处找到 S3VM 在 Python 中的实现)。

另一种方法是在数据集的标记部分训练机器学习模型,然后使用相同的模型为数据集的未标记部分生成标签。然后,您可以使用完整的数据集来训练新模型。

半监督机器学习的局限性

半监督学习并不适用于所有监督学习任务。与手写数字的情况一样,您的类应该能够通过聚类技术分开。或者,就像在 S3VM 中一样,您必须有足够的标记示例,并且这些示例必须涵盖一个公平的代表问题空间的数据生成过程。

但是当问题很复杂并且你的标记数据不能代表整个分布时,半监督学习将无济于事。例如,如果你想对从不同角度看起来不同的物体的彩色图像进行分类,那么半监督学习可能会有很大帮助,除非你有大量的标记数据(但如果你已经有大量的标记数据,那么为什么要使用半监督学习?)。不幸的是,许多实际应用都属于后一类,这就是为什么数据标记工作不会很快消失的原因。

但是半监督学习在简单的图像分类和文档分类任务等领域仍然有很多用途,这些任务可以使数据标记过程自动化。

半监督学习是一项出色的技术,如果您知道何时使用它,它就会派上用场。

理解的心 2023-08-19 12:27:40

相关推荐

电脑如何添加域

先点击计算机,然后单击右键,选择属性项,更改设置选择更改。计算机名字更改为使用者名字,这样是为了区分域中的计算机,域填写需要加进去的域名,点击确定,弹出对话框,填写域管理员的账号密码。点击计算机,然后单击右键,...
展开详情

显卡的6P供电怎么接

1、首先需要准备显卡电源线,保证质量完好无损,方可进行接下来的操作;2、接着观察电脑的插口有哪些具体样式,是否与自身的电源线接口相匹配;3、接着准备连接,首先找到电源插口上六加二中的六插口,随后插在显卡上,此时...
展开详情

表示队伍整齐的四字词语

1、堂堂之阵:形容阵容盛壮整齐,也用来形容光明正大;2、鳞次栉比:形容房屋或船只等排列得很密很整齐;3、正正之旗:排列整齐的军旗。借喻强盛整肃的军队;4、匪匪翼翼:形容车马行走时阵容整齐、威武;5、井然有序:整...
展开详情

形容高考的成语有哪些

形容高考的成语有:寒窗苦读:在寒冷的窗下苦读:形容读书的艰辛。倒背如流:背:背诵。把书或文章倒过来背,背得像流水一样流畅。形容背得非常熟练,记得非常牢。成语出处:郭沫若《苏联纪行日记六月廿七日》。她把说明小册子...
展开详情

儿子欠债父母有义务还吗

成年子女自己欠下的钱,债权人只能让这个成年子女还,法律上成年子女和父母的财产分的很清楚,不存在连带责任。父母对于成年子女的债务不负偿还义务,除非父母作为继承人,在成年子女死亡后继承死者遗产,就需要承担遗产价值以...
展开详情

精选推荐更多>

救人一命胜造七级浮屠中的浮屠是指

“救人一命,胜造七级浮屠”中的“浮屠”是指佛教建筑形式,即所说的塔,又称浮图。读作jiù rén yī mìng,shèng zào qī jí fú tú。这种建筑最初用以供奉佛骨,后来用以供奉佛像,收藏经书。词语指救人一条性命,犹如建筑一座七级宝塔,功德无量。用以劝人行善,或向人恳求救命。
“救人一命,胜造七级浮屠”是一个汉语成语,意思是为死去的人造塔,毕竟不如“救人一命”的功德更大,更有意义。

己亥岁这首诗深刻地揭示了什么

《己亥岁二首》深刻地揭示了战争对人民造成的深重灾难和浩劫。
原文:
其一:
泽国江山入战图,生民何计乐樵苏。
凭君莫话封侯事,一将功成万骨枯。
其二:
传闻一战百神愁,两岸强兵过未休。
谁道沧江总无事,近来长共血争流。
译文:
其一:
富饶的水域江山都已绘入战图,百姓想要打柴割草度日而不得。
请你别再提什么封侯的事情了,一将功成要牺牲多少士卒生命!
其二:
传说一旦开战连众神灵都发愁,两岸军队连年混战一直不停休。
谁还说沧江总是太平没有祸事,近来江水混着鲜血争先向东流。
《己亥岁二首》是唐代诗人曹松的组诗作品。这组诗以干支为题,以示纪实,明确表明了对现实的批判态度。全诗概况地写出了战争对人民造成的深重灾难和浩劫,以冷峻深邃的目光洞穿千百年来封建战争的实质,写得力透纸背,入木三分。

山居秋暝是什么体裁的诗

《山居秋暝》是一首五言律诗,运用了反衬手法和对典故的艺术手法。《山居秋暝》是唐代诗人王维写的初秋时节所见雨后黄昏的景色,为山水名篇。该诗于诗情画意之中寄托着诗人高洁的情怀和对理想境界的追求。
原文:
空山新雨后,天气晚来秋。
明月松间照,清泉石上流。
竹喧归浣女,莲动下渔舟。
随意春芳歇,王孙自可留。
全诗将空山雨后的秋凉,松间明月的光照,石上清泉的声音以及浣女归来竹林中的喧笑声,渔船穿过荷花的动态,和谐完美地融合在一起,给人一种丰富新鲜的感受。它像一幅清新秀丽的山水画,又像一支恬静优美的抒情乐曲,体现了王维诗中有画的创作特点。

个个和各个的区别

个个与各个的区别:指代不同、出处不同、侧重点不同。
一、指代不同:
1、个个:一个一个,每一个。
2、各个:每个;所有的那些个;逐个。
二、出处不同:
1、个个:出自毛泽东《对晋绥日报编辑人员的谈话》:“陕北的部队经过整训诉苦以后,战士们的觉悟提高了……个个磨拳擦掌,士气很高,一出马就打了胜仗。”
2、各个:出自《儿女英雄传》第一回:“家人们听见老爷得了外任,各个喜出望外。”
三、侧重点不同:
1、个个:指团体或整体。
2、各个:指具体的每一个。
“个个”造句:
1、登上山顶时,我们个个累得气喘吁吁的。
2、孩子们个个天真活泼,多么可爱!
“各个”造句:
1、围棋比赛时,小华利用诱敌深入,各个击破的战法,瓦解了对方的攻势。
2、校长负责学校各个方面的工作。
常见热点问答
热点搜索
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
作文大全
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200