如果没有大量数据怎么办
2022年1月28日整理发布:对深度学习的主要批评之一是它需要大量的训练数据。在许多科学领域,没有足够的标记数据可用。在医学等其他领域,数据收集成本高得令人望而却步,并受处理敏感个人信息的法律的约束。
深度神经网络在训练过程中也会消耗大量的计算资源和电力,这是许多人和组织无法满足的要求。
但并非每个深度学习模型都需要大量训练数据。在过去的几年中,迁移学习的进步使许多开发人员能够在不需要大量数据和计算资源的情况下创建深度学习模型。迁移学习涉及为新任务微调预训练的 AI 模型。迁移学习在计算机视觉方面取得了显著成功,并且有许多免费可用的 AI 模型已经在数百万个示例上进行了训练。
只要新问题与基础模型的领域足够接近,并且您有一组不错的示例,您就有合理的机会为新任务微调 AI 模型。
“通常,执行迁移学习是开始研究感兴趣的新问题的绝佳方式。除了预训练权重提供的知识重用、稳定性和收敛性提升之外,使用经过充分测试的标准神经网络架构还有很多好处,”作者写道。
同时,他们还警告说:“但请注意,迁移学习的确切效果尚未完全了解,并且是一个活跃的研究领域。”
未来几个月值得关注的另一个领域是自我监督学习,这是人工智能的一个分支,可以从原始数据中学习,而无需人工标记的示例。然而,自我监督学习仍处于非常初级的阶段,也是一个活跃的研究领域。
但是已经取得成果的领域是生成模型,例如生成对抗网络(GAN)。GAN 可以生成与真实数据相似的虚假数据。也许他们最出名的是他们可以创造出自然但不存在的人脸。艺术家们现在正在使用 GAN 来生成能够以高价出售的艺术品。
但 GAN 在科学研究中也有实际应用,包括医学成像和蛋白质生成中的数据增强。在最近的一个项目中,人工智能研究人员训练了一个 GAN 来生成功能性蛋白质序列。研究人员写道,该模型展示了“人工智能在序列空间允许的生物学限制内快速生成高度多样化的新型功能蛋白质的潜力”。
强化学习是另一个显示出数据稀缺且数据收集困难且成本高昂的科学研究前景的领域。在强化学习中,人工智能代理自行探索他们的问题空间,并通过优化他们的行为以获得奖励功能来发展他们的行为。
然而,生成式 AI 和强化学习有一些警告。“我们将这些方法称为高级方法,因为它们通常实施起来更加复杂,并且可能需要问题的特定属性才能发挥作用,例如用于强化学习的优秀环境模型/模拟器,”Schmidt 和 Raghu 指出。
科学研究和深度学习的可解释性问题
深度学习经常提出的另一个挑战是可解释性。深度神经网络是复杂的函数,其参数可以跨越数百万甚至数十亿,理解它们如何解决问题和做出预测往往令人困惑。
这可能对科学研究的许多领域构成挑战,这些领域的重点是理解而不是预测,研究人员试图确定数据中观察到的模式背后的潜在机制。“在科学环境中应用深度学习时,我们可以使用这些观察到的现象作为预测目标,但最终目标仍然是了解哪些属性会导致这些观察结果,”施密特和拉古写道。
幸运的是,可解释人工智能的进步在某种程度上帮助克服了这些障碍。虽然完全理解和控制神经网络的逐步决策机制仍然是一个挑战,但过去几年开发的技术帮助我们解释了这个过程。
Schmidt 和 Raghu 将 AI 可解释性技术分为两大类:特征归因和模型检查。
特征归因有助于我们更好地了解特定样本中的哪些特征对神经网络的输出做出了贡献。这些技术产生突出这些特征的显着性图。例如,如果您正在检查图像分类器,则显着性图将突出显示 AI 在确定其类别时所定位的图像部分。
有不同的技术可以生成显着图,包括 GradCAM、LIME 和RISE。它们是检查神经网络输出以了解其决策是基于正确还是错误特征的好方法。
另一方面,模型检查试图探测网络隐藏层中的神经元,并找到激活它们的输入类型。这些技术可以更好地了解 AI 模型的一般工作原理。在该领域完成的一些有趣的工作是GANPaint,它可以让您检查操纵单个神经元的效果,以及Activation Atlassses,一个可视化神经网络中神经元之间相互作用的工具。
将深度学习应用于科学发现的机会很多,Schmidt 和 Raghu 编写的论文为有抱负的科学家提供了一个很好的入门指南。
“随着在许多不同科学领域收集的数据量在数量和复杂性方面不断增加,深度学习方法为基本预测问题以及揭示基础数据生成过程的微妙属性提供了许多令人兴奋的可能性,”作者写。