您是否有可能无缘无故地收集数据
人工智能点燃了整个商业世界的兴奋之火。系统可以识别、分类和理解输入,使计算机能够有效地看、听、感觉和说话,这一想法暗示了几乎无限的可能应用。
就人工智能可以完成的事情而言,我们只是触及了表面,但在实施过程中面临着艰巨的挑战。人工智能革命在一些行业正在兴起,但在其他行业的渗透却很缓慢。这是为什么?
企业零散地采用人工智能有几个原因。首先,新想法需要时间来渗透到组织中,公司需要时间来仔细考虑他们的选择和最佳行动方案。其次,许多组织面临成本、培训和教育等结构性障碍,其中最大的挑战是:获取丰富、可靠和组织良好的数据。
原因是现代人工智能算法基于监督学习,其中原始数据与标签配对。有了足够的样本,这些算法就可以推断数据和标签之间的关系,然后可以用来从新数据中预测标签。例如,为了让人工智能系统识别图像中的猫,它需要一个具有代表性的大型图像数据训练集,其中图像中的猫由人类注释器标记。
鉴于这种范式转变,各行各业的公司都开始了分析人工智能改变其业务的潜力的重要过程。他们开始的一个自然的地方是查看他们可以访问的数据或他们可能能够轻松收集的数据。您可能听说过“数据是新的石油”这句话,它说明了这种数据优先的观点。
但识别和收集数据只是第一步。为了证明所提议的人工智能系统的潜力,企业必须通过标记、注释和分类来准备数据,然后使用准备好的数据来测试和迭代各种深度学习算法。
这种方法的主要问题是数据收集和准备是非常昂贵和耗时的过程。人工数据标记通常是最准确的,通常也是唯一的方法。研究表明,数据科学家将 多达 80%的时间用于清理数据,这极大地浪费了他们的才能和生产力。
如果我们假设一个标记任务,其中每个标记需要 30 秒才能完成,并且每张图像都有三个需要标记的重要特征,那么 100 万张图像的标记数据集将需要一个人超过 150 个月才能完成。虽然可以通过使用多个数据标记器来加速任务,但成本因素仍然存在。多个数据标注器引入的另一个问题是标注器间的准确性和质量。除了当前标记方法的成本和有限的可扩展性之外,人类还无法标记新兴应用(如 AR/VR 和自动驾驶汽车感知和导航)所需的许多关键属性(与物体的距离、3D 位置、部分被遮挡的物体) 。
这种以数据为先的 AI 开发和测试方法的另一个问题是,系统所需的功能可能在某种程度上是在开发过程中产生的事后想法。根据我们的经验,这可能会导致目标错失、项目蔓延以及结果与您的实际业务部门和当地人员的需求脱节。
然而,还有另一种方式。在 Neuromation,我们开创了一种合成数据技术,可以显着降低成本并提高原型设计和为您的业务开发新 AI 应用程序的速度。
用于训练深度学习计算机视觉模型的合成数据通常采用数字创建的图像、视频或 3D 环境的形式。就像人类可以通过使用飞行模拟器而不是在实际飞机上练习来有效地学习驾驶飞机一样,人工智能系统可以使用合成数据而不是真实数据进行训练。使用这种技术,几乎可以消除与标记相关的时间和成本,因为合成数据生成器会立即提供像素完美的标签,而无需额外成本。此外,每张附加图像的增量成本几乎为零,允许使用非常大的数据集进行原型设计、测试和模型开发。
我们在自己的企业实践中看到使用合成数据对 AI 系统进行原型设计的好处的一个例子是,一家大型零售商考虑使用相机系统进行库存管理、客户分析和客户/产品交互。通过使用 Synthetic Data 进行原型设计,他们能够轻松了解其所在位置的摄像机数量、类型和位置的相对价值,而无需经历构建具有代表性的硬件、在各种配置下获取数据、标记图像和建立各种模型。
合成数据的好处远不止于更快、更高效的原型设计。过度拟合是 AI 系统的一个常见问题,当您的训练数据中有太多特定标签时,就会出现这种问题。偏差是另一个普遍存在的问题,它源于收集的数据,这些数据不能充分代表现实中可能发生的所有差异。综合生成的数据集可以保证数据集平衡良好,从而消除这些问题。
合成数据还允许可靠地生成边缘情况,这在现实生活中可能极难或不可能捕获。我们自己工作的另一个例子是创建一个人工智能系统来准确识别罕见疾病,该系统在各种环境条件下使用合成生成的罕见疾病症状。鉴于这些疾病在某些情况下可能仅发生在千万分之一的人身上,否则几乎不可能收集到此类数据。边缘情况很重要的其他垂直领域是自动驾驶汽车(事故、环境条件)、制造(缺陷质量保证)和基础设施(识别罕见故障)。
因此,在您启动耗时且昂贵的数据收集和准备过程之前,您应该考虑合成数据是否可以让您更快、更便宜、更准确地原型化、测试和迭代潜在的 AI 应用程序。然后,一旦您的项目启动并运行并朝着正确的方向前进,您就可以更有信心地开始实际数据捕获和准备的过程,并查看混合策略,其中合成数据补充和增强真实数据以提高准确性和平衡。