人类听觉系统除了用于交流、识别和警示外,还进化了一种可能只有人类才具有的高级智能,就是音乐,如独唱合唱、乐器独奏合奏等。
其中,唱歌是最容易又是最难的“乐器”。因为随便谁都能唱,唱得好是“余音绕梁,三日不绝”,反之也可能会“呕哑嘲哳难为听”。
人在说语时多以声带振动来发声,音调、频率都在人最自然的发声区,偶尔有些人会用腹式呼吸来增强声音的厚度和减少声带的疲劳。即使情绪波动会影响发声,但一般变化也不会太大。唱歌则需要比较多的技巧,有着与说话显著不同的特点。
第一,唱歌的音域变化范围很宽。比如俄罗斯男歌手维塔斯能从最低音到最高音唱跨 4 个八度,非常厉害。不过我也能,哆唻咪发嗦啦西哆,重复 5 次,一口气下来也有 5 个八度。
第二,共鸣腔的运用上唱歌和讲话的区别也非常之大。比如唱歌时用的头部共鸣,有从鼻腔和后脑勺位置发声共鸣的区别,这两者导致的音色差别很大。要根据歌曲风格不同来取舍,老百姓常听到的美声唱法喜欢把头腔听觉、体感和语言共鸣置后。
如果留意看歌星唱歌,有些歌手唱高音的时候会挤眉弄眼,鼻子皱了起来,那其实就是在找高音共鸣的位置。
为了歌曲表达的厚度,光靠头腔还不够,因为会比较单薄,还得利用胸腔共鸣加强中低音区的共鸣。
如果想把音域再提高,还可以学习用面罩唱法、咽音和关闭唱法来发声。而低音比如呼麦的唱法则要把气运到声带附近振动发声。
第三,气息也是造成说话和唱歌区别变大的地方。歌曲中有些歌词特别长,只用平时说话那种比较浅的胸式呼吸往往很难保持旋律的稳定和连续性,所以需要借助胸腹式呼吸以及更复杂的换气技巧。
第四,不像说话一般是四平八稳的,歌曲的节奏变化很丰富,一首歌里可能快慢缓急都会出现。
第五,对歌词的理解和情感的投入也会使唱歌与说话有显著的差别。
第六,连读问题。中文歌词相对好一些,但英文在唱歌中的连读就多得多了。关于唱歌和说话,人们可能还会有个错觉,以为口吃的人唱歌一定唱不好。但实际上这两者属于不同的发声机制。说话需要思考要讲的内容,并进行语言组织,再说出来。而唱歌通常是歌曲的语调、语速和语气都已经给定,人需要做的是将这些内容经过反复练习后复述即可。所以,口吃的人,可以试着通过学习唱歌来找到流利发声的自信。
唱歌对多数人来说,是缓解心情的方式之一。听到喜欢的歌,学来便唱了。可是唱得好不好呢?很多人并不太清楚。
到底什么样的歌才可以定义为好听的歌曲呢?音乐里面定义好听与否,有个与频率 f 相关的通用法则。
这是日本著名物理学家武者利光于 1965 年在应用物理学会杂志发表的文章《生物信息和 1 / f 起伏》中提出的 1 / f 波动原则。波动或起伏指某个物理量在宏观平均值附近的随机变化,其原则在很多领域都适用。
就音乐来说,1 / f 表明旋律在局部可以呈现无序状态,而在宏观上具有某种相关性的,可以让人感到舒适和谐的波动。市面上很多抒情歌曲都是符合 1 / f 波动原则的曲子,所以大家很喜欢听。
对于其他形式的音乐风格,如摇滚、说唱等,则是因为其蕴含的律动能帮助人宣泄和抒发心情有关。
更有甚者,还有完全背离 1 / f 波动原则的歌曲,如几乎接近噪声的实验歌曲《Fireworks》(原唱是 Katy Perry)。
为帮助评估音乐是否好听,科学家们还提出了一些心理声学的定性和定量指标,如基于粗糙度、尖锐度、波动度和音调等声学特征组合构成的“烦恼度”和“感知愉悦度”等复合声学指标。
但不管如何约定,音乐风格的多样性和个性化色彩的浓郁,声音的感知仍是以个体的主观感受为评价,公众认同的并不见得能用于刻画小众的审美观点。
对于歌声,有人喜欢粗犷低沉的,有人喜欢清澈如水的,有人喜欢嘹亮的,有人喜欢委婉的。
对于歌曲,有人喜欢稀奇古怪的,有人喜欢平铺直叙,有人喜欢口水歌,有人喜欢阳春白雪。
音乐风格的多样性和个性化色彩的浓郁,很难真正地形成统一的客观标准来评判。
虽然歌曲 / 歌唱的分析显然比单纯的语音识别复杂、难度高,但在人工智能领域还是有一些相关的应用。
列举几个比较有应用价值的,一是歌曲哼唱识别,这是目前多数提供音乐的平台有或者正在尝试做的一项功能。其任务是根据局部片段的旋律,来识别可能的曲子。难点在于,并非每个人都能准确地把旋律哼出来。多数采用这种方式找曲子的,原因可能是不记得歌名,或者只是一段遥远的旋律记忆。其次,人的发音频率、音调、说话的清晰度和原唱都有一定的差异。所以,哼唱识别的任务是要从不精确的哼唱中找到有效的候选集。
除了哼唱,另一个重要的应用是自动调音。一是因为很少有人能具有绝对音高的能力,即使经过专业训练,仍然可能不稳。二是多数人的音准和稳定性是存在问题的。而喜爱唱歌的人又多。所以,自动调音对于专业歌手和业余爱好者都有很大的应用市场。但由于音乐的风格往往千变万化,而且还要学习和增强每个人特有的辨识度和个性化音色,所以,利用人工智能技术构造自动调音师的难度显而易见。
另外,音乐声与人声分离也是一个极其重要的研究方向。人类在这方面的能力非常强,可以在非常嘈杂的环境中轻松选择自己关注的声音来聆听。1953 年彻瑞(Cherry)将人类听觉注意引发的这一现象称为鸡尾酒会效应(cocktail party effect)。
虽然这一现象已经发现近半个多世纪,但人工智能要实现和人相近的辨识能力还很难。因为通过话筒获取的音频信号一般是多个声源混合而成的一维的音频信号,要再分离出原来的多个信号源将是一对多的病态问题,没有唯一解。
事实上,人类在听取录制后的声音后,也无法获得鸡尾酒会效应的能力了。
要解决这一难题,在人工智能领域通常会假定这些信息源是相互独立的,且不符合之前提过的高斯分布,输出结果为这些信息源的加权组合。信息源的分离,又称为盲源分离(blind-source separation)。早先的做法是利用机器学习和模式识别领域的独立分量分析(independent component analysis)的技术或其改进版来实现,但这一方法的不足是收敛速度慢,且难以获得唯一解。
深度学习在这一方向上已经有了长足的进步。如“谷歌研究”2018 年 8 月在图形学顶级期刊《计算机图形学会刊》(ACM Transactions on Graphics,ACM ToG)上公布的最新成果。作者埃弗拉特(Ephrat)等将音视频结合起来,分别对视频和音频采用两个深度学习模型提取各自特征。
融合特征后,再用一个考虑时间变化的长短时记忆深度模型(long short-term memory,LSTM)来刻画音视频的时序特性,最后为每个说话者都采用两个不同的解码系统来分离音频和视频。该模型达到了目前的最佳效果,离模拟人类的鸡尾酒会效应又进了一步。但其仍存在一些不足,主要有两点。一是需要借助视频,所以,人脸必须出现在画面里帮助定位声音源,这与人在鸡尾酒会上并不需要视觉的帮助来定位相比还是要弱不少。其次,该研究还没有涉及歌声和乐器声分离这一类更难的问题。
输入的视频帧与音频(a);
处理思路:分别提取视频、音频特征,并执行音视频源分离(b);
为每个说话者输出干净的音频(c)
当然,基于人工智能的音乐分析还有很多其他有意思的应用,如计算机作曲 / 写歌词、设计像洛天依一样的唱歌机器人等。
但总体来看,人类作者写出的歌词、旋律的意境往往具有更好的整体性和更强的逻辑性,而计算机模拟的目前还只能做到局部逼近,在大局观、整体情感的把握上仍然任重道远,也许现阶段考虑与人的混合智能处理是不错的尝试。
★ 图书简介 ★
★ 作者简介 ★
原点阅读入驻小红书啦!
本文来自微信公众号:原点阅读 (ID:tupydread),作者:张军平,编辑:张润昕
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。