必须微调的几次学习模型

往复随安

精选回答

2022年1月27日整理发布：根据微软博客的说法，“例如，新的 AI 驱动功能将允许员工构建电子商务应用程序，以使用对话语言来描述编程目标，例如‘查找名称以‘孩子’开头的产品’” - 调整过的 GPT-3 模型[强调我的] 然后提供了将命令转换为 Microsoft Power Fx 公式的选择，这是 Power Platform 的开源编程语言。”

我没有找到微软使用的 GPT-3 微调版本的技术细节。但是通常有两个原因可以微调深度学习模型。在第一种情况下，模型无法以所需的精度执行目标任务，因此您需要通过针对特定任务的示例对其进行训练来对其进行微调。

在第二种情况下，您的模型可以执行预期的任务，但计算效率低下。GPT-3 是一个非常大的深度学习模型，有 1750 亿个参数，运行它的成本是巨大的。因此，可以优化模型的较小版本以执行代码生成任务，并以一小部分计算成本实现相同的精度。一个可能的权衡是该模型在其他任务(例如问答)上表现不佳。但在微软的情况下，处罚将无关紧要。

在任何一种情况下，深度学习模型的微调版本似乎都与GPT-3 论文中讨论的原始想法不一致，该论文的标题恰如其分，“语言模型是少数人学习者”。

这是论文摘要中的一句话：“在这里，我们表明，扩展语言模型极大地提高了与任务无关的、少样本的性能，有时甚至可以与之前最先进的微调方法竞争。” 这基本上意味着，如果您构建了足够大的语言模型，您将能够执行许多任务，而无需重新配置或修改您的神经网络。

那么，必须针对新任务进行微调的小样本机器学习模型有什么意义呢?这就是科学研究和应用人工智能领域的碰撞。

沉默是金 2023-08-15 16:27:40

必须微调的几次学习模型

相关推荐

精选推荐更多>

精选问答