百度人工智能深度学习研发又有新进展。
据科技媒体《麻省理工科技评论》近日报道,百度研发的深度语音文本阅读系统,可极大程度上减少幕后精调的工作量,让机器只需几小时就能学会“说话”,完全无需人类干预。
百度方面向澎湃新闻确认了其在深度学习领域的这一最新研究成果。
此前,导航、语音闹钟、手机接听系统等语音合成应用,都需要用到文本转语音系统,而这一功能的实现都需要记录某个人的大量语音数据才能生成新句子。一旦说话人有所改变,或者单词重音发生变化,就需要重新录音,生成新数据库,直接增加了幕后精调的工作量,提高人工干预成本。
百度运用深度学习技术将文本分割为最小单位,生成被称之为“现象(phenomes)”的声音片段,随后,再运用语音合成网络重新生成这些声音。这种方法的不同之处在于,深度学习可以自己完成训练过程,基本不需要人工进行微调。而百度这一技术已经领先与谷歌DeepMind去年推出的WaveNet(编注:WaveNets是2016年9月谷歌推出的一种卷积神经网络,能够模拟任意一种人类声音。当时,这一计划能将模拟生成的语音与人类声音之间的差异降低了50%以上)——在培训阶段仍然需要微调,而且需要大量的计算资源。
《麻省理工科技评论》的文章以单词“Hello”来介绍百度深度语音合成技术是如何实现的。百度系统会将“Hello”分割为以下“现象”:(无声, HH)、 (HH, EH)、 (EH, L)、 (L, OW)、 (OW, 无声)。然后再将这些输入到语音合成系统来“说”出单词。
不过,百度研发的深度语音文本阅读系统的实现需要大量的计算资源。真实语音的采码率为48赫兹,因此电脑生成样本的时间只有20微秒。但是语音合成过程涉及多个层面,每个层面都要保证在1.5微秒中完成工作,才能跟上生成速度。对此,百度研究员对MIT表示:“要执行实时对接,我们必须保证不能重复计算任何结果,将整个处理模型存储在缓存之中(不是主内存),然后优化利用可用的计算单元。”
据悉,百度深度语言合成系统在亚马逊的Mechanical Turk上进行了众包理解测试。测试内容包括让多个试用人员将生成音频与真人原声录音做对比,然后对音频质量进行打分。结果显示,通过百度深度学习技术生成的音频质量很高。百度表示,百度深度语音合成达到了比实时还快的速度,不仅能够实时生成音频,从而可以广泛应用于直播中。
在该系统的通用性上,百度研究团队表示,可以通过重新培训学习全新的数据集,而这一过程无需人工介入,将大大简化文本转语音系统的处理流程。
如何让机器拥有情感一直是人工智能领域的难题。据了解,未来百度将在控制重音、持续时间和自然声音频率方面加深研究,以实现改变输出的语音和词语中所传达的情感的功能。
深度学习是机器学习的一个分支。它的主要特点是通过多层次的学习而得到对于原始数据的不同抽象层度的表示,进而提高分类和预测等任务的准确性。在百度,深度学习被成功地用于包括图像识别,语音识别和广告点击率预估等在内的多个产品。 |