你知道集成学习如何运作吗
2022年1月10日整理发布:假设您想开发一个机器学习模型,该模型根据您从前几年收集的历史数据预测您公司的库存订单。您使用不同的算法训练四种机器学习模型:线性回归、支持向量机、回归决策树和基本人工神经网络。但即使经过大量调整和配置,它们都没有达到您想要的 95% 的预测准确度。这些机器学习模型被称为“弱学习器”,因为它们无法收敛到所需的水平。
但弱不代表没用。您可以将它们组合成一个整体。对于每个新的预测,您通过所有四个模型运行输入数据,然后计算结果的平均值。在检查新结果时,您会看到汇总结果提供了 96% 的准确度,这是可以接受的。
集成学习之所以有效,是因为您的机器学习模型的工作方式不同。每个模型可能在某些数据上表现良好,而在其他数据上则不太准确。当你把它们全部结合起来时,它们就会抵消彼此的弱点。
您可以将集成方法应用于预测问题(例如我们刚刚看到的库存预测示例)和分类问题(例如确定图片是否包含某个对象)。
集成方法
对于机器学习集成,您必须确保您的模型相互独立(或尽可能相互独立)。一种方法是使用不同的算法创建集成,如上例所示。
另一种集成方法是使用相同机器学习算法的实例并在不同的数据集上训练它们。例如,您可以创建一个由 12 个线性回归模型组成的集合,每个模型都在您的训练数据的一个子集上进行训练。
从训练集中采样数据有两种关键方法。“引导聚合”,又名“装袋”,从“有放回”的训练集中抽取随机样本。另一种方法是“粘贴”,“无需替换”即可抽取样本。
为了理解采样方法之间的区别,这里有一个例子。假设您有一个包含 10,000 个样本的训练集,并且您想用 9,000 个样本训练集合中的每个机器学习模型。如果您使用 bagging,对于每个机器学习模型,您需要执行以下步骤:
从训练集中抽取一个随机样本。
将样本的副本添加到模型的训练集中
将样本返回到原始训练集
重复该过程 8,999 次
使用粘贴时,您会经历相同的过程,不同之处在于样本在绘制后不会返回到训练集。因此,相同的样本在使用 bagging 时可能会出现在模型中多次,但在使用 paste 时只会出现一次。
训练完所有机器学习模型后,您必须选择一种聚合方法。如果您正在处理分类问题,通常的聚合方法是“统计模式”,或预测比其他类别更多的类别。在回归问题中,集成通常使用模型做出的预测的平均值。