InfoQ:在未来,人工智能在音乐领域的发展会朝着哪个方向迈进?有哪些可以预见的发展趋势? 谭旭:从我个人的一些理解和判断来看,长远来讲,人工智能技术未来一定会取得非常大的进步。作为技术从业者,我希望能看到人工智能技术的发展,可以实实在在地帮助到音乐。 在音乐理解层面,我相信未来我们能够构建一个比较大规模的音乐理解模型,这个模型和现在的不一样,它可以直接对音频进行分类、分离转录等等。现在音乐领域的很多束缚还是在于把音频的一些任务转成符号,这项技术目前还是存在很多挑战的。 、比如我们可以把音频转成钢琴,但如果转成其他乐器,就会产生比较大的误差。如果未来的语音处理技术能真正成熟的话,那我们可以直接从音乐中把这些内容理解出来,这也能极大地推动 AI 音乐的进步。 在音乐生成层面,我们目前需要解决的问题在于模型的可控生成。之前提到 AI 要为人服务,人要去指定控制模型生成,或某种音乐结构,或某种曲子结构,告诉 AI 生成什么,AI 就能生成什么。如果未来真正能做到这一点,我相信能有巨大的场景应用。另外就是 AI 能不能去自动地做音色选择,或是混音,这也是我个人比较期待的。 人工智能时代下的通用内容创作 InfoQ:人工智能在内容创作上存在哪些优势和局限性?和真人相比,还有哪些差距? 谭旭:我本人对 AI 内容创作这个方向比较感兴趣,也围绕着这个方向做了很多研究。其实文本生成、语音生成以及音乐生成都属于广泛的人工智能内容创作,优势在于 AI 技术本身的一些优势,比如它能够从大量数据里去总结背后的规律,通过拟合这些规律实现模型生成。 在人工智能领域,我们经常能听到两个概念:感知和认知。比如图像和语音更多会涉及感知层面的生成,现在的 AI 能够生成非常逼真的人脸,以及出色的语音效果。在认知任务层面,比如 AI 需要对语言进行理解,这部分的发展还有一段距离。像之前 OpenAI 的 GPT-3 模型非常大,生成效果也不错,乍一看内容还可以,但如果你仔细去看这些内容,用一个词来衡量叫似是而非,从认知层面来推敲的话,还是和真人存在一定的差距的。当然,这也是我们这个行业以及从业者努力的空间和方向,需要在数据、算法、建模,以及整个技术路线的选择上做更多努力,这样才能在文本或音乐生成上真正取得不错的效果。
AI 技术本身的一些优势,比如它能够从大量数据里去总结背后的规律
关注
打赏