早期的神经网络剪枝效果如何
2022年1月24日整理发布:在他们的工作中,人工智能研究人员将早期修剪方法的性能与两个基线进行了比较:训练后的幅度修剪和彩票倒带 (LTR)。幅度剪枝是在神经网络完全训练后去除过多参数的标准方法。彩票倒带使用 Frankle 和 Carbin 在早期工作中开发的技术来重新训练最优子网络。如前所述,这些方法证明次优网络存在,但它们仅在训练完整网络后才会这样做。这些预训练修剪方法应该在训练神经网络之前在初始化阶段找到最小网络。
研究人员还将早期修剪方法与两种简单技术进行了比较。其中之一从神经网络中随机删除权重。检查随机性能对于验证方法是否提供显着结果非常重要。人工智能研究人员写道:“随机剪枝是一种幼稚的早期剪枝方法,其性能任何新提议都应该超越。”
另一种方法是根据参数的绝对权重删除参数。“幅度剪枝是一种标准的推理剪枝方法,也是早期剪枝的另一个简单比较点,”作者写道。
这些实验是在 VGG-16 和 ResNet 的三个变体上进行的,这两个变体是两个流行的卷积神经网络(CNN)。
在 AI 研究人员评估的早期修剪技术中,没有一种早期方法脱颖而出,其性能因选择的神经网络结构和执行的修剪百分比而异。但他们的研究结果表明,在大多数情况下,这些最先进的方法比粗略的随机修剪要好得多。
然而,没有一种方法与基准训练后修剪的准确性相匹配。
“总体而言,这些方法取得了一些进展,总体上优于随机修剪。然而,在整体准确度和可能匹配完全准确度的稀疏度方面,这一进展仍远未达到训练后的幅度,”作者写道。
研究早期修剪方法
为了测试修剪方法表现不佳的原因,人工智能研究人员进行了几项测试。首先,他们测试了“随机洗牌”。对于每种方法,他们随机切换从神经网络的每一层移除的参数,看看它是否对性能有影响。如果像剪枝方法所建议的那样,它们根据参数的相关性和影响来删除参数,那么随机切换应该会严重降低性能。
令人惊讶的是,研究人员发现随机洗牌并没有对结果产生严重影响。相反,真正决定结果的是他们从每一层中移除的权重数量。
“所有方法在随机洗牌时都保持准确性或改进。换句话说,这些技术提取的有用信息不是要删除哪些单个权重,而是要修剪网络的分层比例,”作者写道,并补充说,虽然分层修剪比例很重要,但它们并不重要足够的。证明是,训练后剪枝方法通过选择特定的权重并随机改变它们来达到完全准确度,这会导致剪枝后网络的准确度突然下降。
接下来,研究人员检查了重新初始化网络是否会改变修剪方法的性能。在训练之前,神经网络中的所有参数都使用来自所选分布的随机值进行初始化。以前的工作,包括 Frankle 和 Carbin 的工作,以及本文前面提到的生命游戏研究,表明这些初始值通常对训练的最终结果有相当大的影响。事实上,“彩票”一词是基于这样一个事实创造的,即有一些幸运的初始值可以使小型神经网络在训练中达到高精度。
因此,参数的选择应该基于它们的值,如果它们的初始值发生变化,将会严重影响修剪后网络的性能。同样,测试没有显示出显着的变化。
“所有早期剪枝技术都对重新初始化具有鲁棒性:无论网络是使用原始初始化还是新采样的初始化进行训练,准确性都是相同的。与
随机改组,这种对初始化的不敏感可能反映了这些方法用于修剪的信息的限制,从而限制了性能,”人工智能研究人员写道。
最后,他们尝试反转修剪后的权重。这意味着对于每种方法,他们将权重标记为可移动,而不是删除应该保留的权重。这个最终测试将检查用于选择修剪权重的评分方法的效率。其中两种方法,SNIP 和 SynFlow,对反演表现出极高的敏感性,其准确性下降,这是一件好事。但 GraSP 的性能在反转剪枝后的权重后并没有下降,在某些情况下,它甚至表现得更好。
从这些测试中得出的关键结论是,当前的早期修剪方法无法检测到在深度学习模型中定义最佳子网的特定连接。
让深度学习研究更容易获得
看看该领域的研究如何展开将会很有趣。我也很想知道这些和未来的方法将如何在其他神经网络架构(如 Transformer)上执行,这些架构的训练计算成本远远高于 CNN。另外值得注意的是,这些方法已经针对监督学习问题进行了开发和测试。希望我们会看到类似技术的类似研究,用于更昂贵的 AI 分支,例如深度强化学习。
该领域的进展可能会对人工智能研究和应用的未来产生巨大影响。随着训练深度神经网络的成本不断增长,研究领域的某些部分越来越集中在拥有大量财务和计算资源的富裕科技公司中。
在训练神经网络之前修剪神经网络的有效方法可以为更广泛的人工智能研究人员和实验室创造新的机会,这些研究人员和实验室无法访问非常大的计算资源。