语音到文本的另一面是语音合成
同样,这真的不是智能,因为它与理解人类语言的含义和上下文无关。但它仍然是许多以人类自己的语言与人类交互的应用程序的一个组成部分。
与语音到文本一样,语音合成已经存在了很长时间。我记得 90 年代在实验室第一次看到计算机语音合成。几十年来,失去声音的 ALS 患者一直在使用这项技术,通过输入句子并让计算机为他们阅读来进行交流。盲人也使用这项技术来阅读他们看不到的文字。
然而,在过去,计算机生成的声音听起来不像人类,语音模型的创建需要数百小时的编码和调整。现在,在神经网络的帮助下,合成人声变得不那么麻烦了。
该过程涉及使用生成对抗网络 (GAN),这是一种人工智能技术,可让神经网络相互对抗以创建新数据。首先,神经网络会摄取一个人的大量语音样本,直到它能够判断一个新的语音样本是否属于同一个人。然后,第二个神经网络生成音频数据,并通过第一个神经网络运行它,看看是否验证它属于对象。如果没有,生成器会更正其样本并通过分类器重新运行它。这两个网络重复这个过程,直到它们能够生成听起来自然的样本。
有几个网站可以让您使用神经网络合成自己的声音。该过程很简单,只需为其提供足够的声音样本,这比老一代技术所需的要少得多。
这项技术有很多很好的用途。例如,公司正在使用人工智能驱动的语音合成来增强他们的客户体验并赋予他们的品牌自己独特的声音。在医学领域,人工智能正在帮助 ALS 患者恢复真实的声音,而不是使用计算机化的声音。当然,谷歌正在使用这项技术来实现其双工功能,以用自己的声音代表用户拨打电话。
AI语音合成也有它的恶用。即,它可以用于伪造,用目标人的声音拨打电话,或者通过模仿国家元首或知名政客的声音传播假新闻。
我想我不需要提醒你,如果计算机听起来像人,并不意味着它理解它所说的内容。