人工智能现在可以复制你的声音:这对人类意味着什么?

行业资讯
2019
05/14
13:24
江苏达内
分享

克隆语音只需3.7秒的音频。中国科技巨头百度公布了这一令人印象深刻且有点惊人的壮举。一年前,该公司的语音克隆工具Deep Voice需要30分钟的音频才能完成同样的工作。这说明了创造人工语音的技术加速的速度有多快。在短时间内,AI语音生成的功能已经扩展并变得更加真实,这使得该技术更容易被滥用。

人工智能现在可以复制你的声音:这对人类意味着什么?


AI语音生成功能

与所有人工智能算法一样,更多数据语音克隆工具(如Deep Voice)接收到的训练结果更加真实。当您听几个克隆示例时,更容易理解该技术可以做的广度,包括能够切换语音的性别以及改变语音的重音和风格。

谷歌推出了Tacotron 2,这是一个文本转语音系统,利用公司的深度神经网络和语音生成方法WaveNet。WaveNet分析称为频谱图的音频的可视化表示以生成音频。它用于为Google智能助理生成语音。这种技术的迭代非常好; 这几乎是不可能告诉什么是AI产生,什么声音是人类的产生。该算法已经学会了如何发音具有挑战性的单词和名称,这些单词和名称本来就是机器的标志,以及如何更好地发音单词。

人工智能现在可以复制你的声音:这对人类意味着什么?


谷歌语音生成技术的这些进步使谷歌助手能够提供名人角色。John Legend的声音现在可以作为美国任何设备的选项,包括Google Home,Google Home Hub和智能手机等Google智能助理。吟唱者的声音只会回答某些问题,例如“天气怎么样”和“月球的距离”,可以按命令唱生日快乐。谷歌预计我们很快会有更多名人角色可供选择。

另一个技术精确程度的例子,乔丹·彼得森(12个生命规则的作者)人工智能模型听起来就像是在敲击艾美琳娜的 “失去自己”这首歌。人工智能算法的创建者只用了六个小时的彼得森谈话(取自他在网上随时可用的录音)来训练机器学习算法来创建音频。它需要短的音频剪辑,并学习如何以扬声器的风格合成语音。听一听,你会看到它有多成功。

这项先进技术为Lyrebird等公司提供新服务和产品打开了大门。Lyrebird使用人工智能为聊天机器人,有声读物,视频游戏,文本阅读器等创建语音。他们在他们的网站上承认“创新带来了巨大的责任”,强调了这项技术先驱的重要性,要小心谨慎,避免滥用技术。

这项技术如何被滥用

与其他新技术类似,人工语音可以有许多好处,但也可以用来误导个人。随着人工智能算法越来越好,很难分辨出什么是真实的,什么是人为的,将有更多机会用它来制造真相。

根据研究,我们的大脑没有记录真实和人工声音之间的显着差异。事实上,我们的大脑更难区分假声音而不是检测伪造图像。

现在,这些人工智能系统只需要少量音频进行训练,以创造一种模仿个人说话风格和语气的可行的人工语音,滥用的机会就会增加。到目前为止,研究人员无法确定大脑如何区分真假的神经区分。考虑如何在面试,新闻片段或新闻发布会中使用人工语音,以使听众相信他们正在倾听政府中的权威人物或公司的CEO。

提高人们对这项技术存在及其复杂程度的认识将是保护听众在习惯误导我们时不会因人为声音而堕落的第一步。真正的恐惧是,人们可能会被愚弄,因为它听起来像是来自真实的人。有些人试图寻找技术解决方案来保护我们。但是,技术解决方案不是100%万无一失。我们批判性地评估情况,评估信息来源和验证其有效性的能力将变得越来越重要。


【来源:江苏达内             作者:达内教育 】

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表本网站的观点和立场。

相关热点

神经网络由大量的人工神经元联结进行计算,大多数情况下,人工神经网络能在外接的信息基础上改变内部结构,是一种自己逐渐适应的过程。现代神经网络是一种基于传统统计学建模的工具,常用来对输入和输出间复杂的关系进...
江苏达内
近年来,国家发布众多有利政策,不断地推动大数据在制造业领域的广泛深入应用,促进基础制造业与工业互联网融合,鼓励发展人工智能提升基础制造行业生产效率,加快制造业向数字化转型。...
江苏达内
Python语言确实在人工智能领域有广泛的应用,不论是从事机器学习方向还是从事计算机视觉、自然语言处理等方向,研发人员都在普遍采用Python作为算法实现语言,同时由于Python语言自身就有健全的语言生态,可以完成落地应用的...
江苏达内

相关推荐