机器学习的主要挑战之一是需要大量数据
为机器学习模型收集训练数据集会带来组织宁愿避免的隐私、安全和处理风险。一种有助于解决其中一些挑战的技术是“联合学习”。通过跨用户设备分布模型训练,联邦学习可以利用机器学习,同时最大限度地减少收集用户数据的需要。
基于云的机器学习
开发机器学习应用程序的传统过程是收集大型数据集,在数据上训练模型,然后在用户可以通过不同应用程序(例如网络搜索、翻译、文本生成和图像)访问的云服务器上运行训练后的模型处理。
每次应用程序想要使用机器学习模型时,它都必须将用户的数据发送到模型所在的服务器。
在许多情况下,向服务器发送数据是不可避免的。例如,这种范式对于内容推荐系统来说是不可避免的,因为机器学习推理所需的部分数据和内容驻留在云服务器上。
但在文本自动完成或面部识别等应用中,数据对于用户和设备来说是本地的。在这些情况下,最好将数据保留在用户的设备上,而不是发送到云端。
幸运的是,边缘人工智能的进步使得避免将敏感的用户数据发送到应用服务器成为可能。也称为TinyML,这是一个活跃的研究领域,并试图创建适合智能手机和其他用户设备的机器学习模型。这些模型使执行设备端推理成为可能。大型科技公司正试图将他们的一些机器学习应用程序引入用户设备以改善隐私。
设备上的机器学习有几个额外的好处。即使设备未连接到互联网,这些应用程序也可以继续工作。当用户使用按流量计费的连接时,它们还提供节省带宽的好处。在许多应用中,设备端推理比将数据发送到云端更节能。
训练设备端机器学习模型
设备端推理是机器学习应用程序的重要隐私升级。但仍然存在一个挑战:开发人员仍然需要数据来训练他们将在用户设备上推送的模型。当开发模型的组织已经拥有数据(例如,银行拥有其交易)或数据是公共知识(例如,维基百科或新闻文章)时,这不会造成问题。
但是,如果一家公司想要训练涉及机密用户信息(例如电子邮件、聊天记录或个人照片)的机器学习模型,那么收集训练数据将面临许多挑战。公司必须确保其收集和存储政策符合各种数据保护法规,并进行匿名处理以删除个人身份信息 (PII)。
一旦机器学习模型被训练,开发团队必须决定是保留还是丢弃训练数据。他们还必须制定政策和程序来继续从用户那里收集数据,以定期重新训练和更新他们的模型。