外国科学家发现了一种人工智能语音发生器，可以伪造任何人的声音

05-06　网络安全来源: 未知　　

人类的声音，尽管其微妙和细微差别，被证明是一个非常困难的事情。使用一个强大的新算法，科学家蒙特利尔已经启动开发出一个声音发生器，可以模仿几乎任何人的声音，甚至在必要时添加情感冲床。该系统并不完美，但它预示着未来时的声音，就像照片，可以很容易地伪造。

科学家西丽，Alexa表示：“或我们的全球定位系统与我们交谈，这是相当明显的，我们正在说话的机器。这是因为市场上几乎所有的文本-语音系统都依赖于预先录制好的单词、短语和话语（从配音演员中记录下来），然后用弗兰肯斯坦这样的方式串成一行，以产生完整的单词和句子。最终的结果是一个声音听起来非常平淡。这种语音合成的方法也意味着我们在一遍又一遍地听相同的预先录制的单调的声音”。

为了实现自动化声音的功能，走出我们的应用程序中注入一些新生活，科学家启动琴鸟开发了语音模仿算法，可以模仿任何人的声音，和读一个预定义的情绪或语调的任何文本。为了促进其新的工具，Lyrebird制作的几个音频样本使用贝拉克·奥巴马、唐纳德·特朗普和Hillary Clinton的声音。

这一切都是通过人工神经网络来实现的，这种神经网络的功能类似于人脑中的生物神经网络。从本质上讲，该算法学习识别模式，在一个特定的人的讲话，然后再现这些模式在模拟语音。

在琴鸟团队成员和语音合成专家告诉他：“对于一个新的演讲者，我们压缩他们的信息在一个小键，包含他们的语音DNA。我们用这个键说新句子。”

与其他系统不同，琴鸟的解决方案需要每个扬声器较少的数据产生一个新的声音，该公司计划向需要语音合成解决方案的公司提供其工具。

Sotelo说“我们目前正在筹集资金和扩大我们的工程团队”。“我们正在努力提高音频的质量，使其更少的机器人，我们希望尽快启动beta测试。”

不用说，这种形式的语音合成引入了一系列的道德问题和安全问题。最终，这个系统的精致版本可以以令人难以置信的精确度复制一个人的声音，使人几乎不可能从模拟中辨别出原始的声音。这一天的到来，有声语言，像PS图象处理软件处理图像，可我们不知道如何操纵。肆无忌惮的人可以伪造一个著名政治家的讲话，增加了另一层新兴的后真理环境。黑客可以使用语音合成的社会工程，愚弄即使是最谨慎的安全专家。可能性几乎无穷无尽。

“我们应该认真对待我们的技术潜在的恶意应用程序，”Sotelo告诉Gizmodo。“我们希望这项技术被用于好的目的：回馈的声音，谁失去了它生病的人，能够记录自己在不同的阶段，在你的生活中，听到你的声音之后，等这种技术可以通过恶意用途的其他群体的发展，我们相信，做正确的事是让大众熟知的所以我们停止依靠录音。”

毫无疑问，我们将不得不开始第二次猜测录音的讲话很快，但也可以开发解决方案，以确定真实性的声乐录音。人类可能被这样的系统愚弄，但电脑至少不会有一段时间。在分析人类语音的波形或频率时，高分辨率的记录可以为计算机分析产生大量的数据。这将是一个漫长的，在语音合成程序可以复制一个人的独特的演讲的每一个方面都长时间，喜欢声乐音色的细节（如语音质量），和嘴的声音如呼吸，舌头的声音，和咂嘴，到这种地步，连机不能检测差异。还有其他方面的记录，以及考虑。例如，背景噪声的存在下，存在一个伪造的声学空间，或人工引入的环境声音应该很容易检测到的机器设计的任务。

最终，一个语音合成程序可能能够伪造所有这些东西，在这一点上，我们辨别真相的能力，从制造将被纳入测试。