AI助力语音克隆，人和自己“对话”的障碍在哪？

要实现“完美”的语音克隆，最大的一道坎在哪？

智能相对论（微信ID：aixdlun）认为，完美的语音克隆，也应该能够克隆出说话人携带的情感，而不仅仅是音色等表象的元素，就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达，更多的是研究人员修改完成的，而且还需要对各类情感进行标注。

谷歌的Tacotron2系统也还只能进行模式化的情感表达，如根据输入文本的标点符号的不同而在语气上有所区分；在读大写单词时加重语气等。

百度和谷歌的语音合成技术暂时不能达到自行合成情感，这也是语音克隆其技术本身所限，要实现合成出的每一句话有其恰当的情感，这里面有情感识别、情感自动标注、、语气调整等大量的数据和工程难度，费用和技术也暂时难以逾越。

而更进一步，想要和机器进行有情感语音的交互就更加困难了，因为这并不是单一技术所能完成的，它除了能输出情感之外，还必须要求自然语言处理技术能够识别出人类表达中的各种情感，以此作为回应的前提，而这已经超出了语音克隆的技术范围。

在语音交互中，让机器能够自然、顺畅的说话是人机交互的一大要求，表现力、音质、复杂度和自然度一直是语音合成所追求的。

而随着AI技术的发展，语音交互的音质、流畅度、自然度都得到了很大的提高，但在表现力方面依旧是其最大的痛点，不过随着各大厂商的持续发力，未来使机器也能像朗读者一样，抑扬顿挫、情感起伏、拿捏到位也不是梦想。

智能相对论（微信id:aixdlun）：深挖人工智能这口井，评出咸淡，讲出黑白，道出深浅。重点关注领域：AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

文章TAG：