要实现“完美”的语音克隆,最大的一道坎在哪?
智能相对论(微信ID:aixdlun)认为,完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素,就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注。
谷歌的Tacotron2系统也还只能进行模式化的情感表达,如根据输入文本的标点符号的不同而在语气上有所区分;在读大写单词时加重语气等。
百度和谷歌的语音合成技术暂时不能达到自行合成情感,这也是语音克隆其技术本身所限,要实现合成出的每一句话有其恰当的情感,这里面有情感识别、情感自动标注、、语气调整等大量的数据和工程难度,费用和技术也暂时难以逾越。
而更进一步,想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。
在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。
而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。
智能相对论(微信id:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
文章TAG: