必须微调的几次学习模型
2022年1月27日整理发布:根据微软博客的说法,“例如,新的 AI 驱动功能将允许员工构建电子商务应用程序,以使用对话语言来描述编程目标,例如‘查找名称以‘孩子’开头的产品’” - 调整过的 GPT-3 模型[强调我的] 然后提供了将命令转换为 Microsoft Power Fx 公式的选择,这是 Power Platform 的开源编程语言。”
我没有找到微软使用的 GPT-3 微调版本的技术细节。但是通常有两个原因可以微调深度学习模型。在第一种情况下,模型无法以所需的精度执行目标任务,因此您需要通过针对特定任务的示例对其进行训练来对其进行微调。
在第二种情况下,您的模型可以执行预期的任务,但计算效率低下。GPT-3 是一个非常大的深度学习模型,有 1750 亿个参数,运行它的成本是巨大的。因此,可以优化模型的较小版本以执行代码生成任务,并以一小部分计算成本实现相同的精度。一个可能的权衡是该模型在其他任务(例如问答)上表现不佳。但在微软的情况下,处罚将无关紧要。
在任何一种情况下,深度学习模型的微调版本似乎都与GPT-3 论文中讨论的原始想法不一致,该论文的标题恰如其分,“语言模型是少数人学习者”。
这是论文摘要中的一句话:“在这里,我们表明,扩展语言模型极大地提高了与任务无关的、少样本的性能,有时甚至可以与之前最先进的微调方法竞争。” 这基本上意味着,如果您构建了足够大的语言模型,您将能够执行许多任务,而无需重新配置或修改您的神经网络。
那么,必须针对新任务进行微调的小样本机器学习模型有什么意义呢?这就是科学研究和应用人工智能领域的碰撞。