基于声景理论的VR 电影声音塑造

(中国传媒大学音乐与录音艺术学院,北京 100024)

1 引言

声景 (soundscape)这个概念由莫里·谢弗(Murray Schafer)在他的《Soundscape:Our Sonic Environment and the Tuning of the World》一书中提出。声景,概括来说是一个区域内所有声音的总和,它既包括了自然声环境,如各种水声、风声、雷声、虫鸣、鸟叫,也包括了人为声环境,如机器声、各种工业与商业活动的声音,以及人创作的音乐等。声景所含的各类声音囊括了电影声音中的所有声音元素。同时谢弗提出,聆听是一种有意识的精神活动,声景由外在的“听”和内在的“感知”共同构成,强调人通过声音来与环境产生联系。“世界声景计划”给出了声景的定义——“一种强调个体或社会感知和理解方式的声音环境”,这一点与VR 电影中强调观众与声音内容的交互是一致的。

VR 电影和传统电影相比,影像与观众的关系产生了颠覆性的改变,通过营造一个不受限制,可由观众自主参与的三维空间,实现了其独特的交互性和沉浸性。VR 电影缺乏传统电影的镜头感,而是让观众处在一个完全视觉化的场景中,视觉化程度越高留白空间越小,叙事的能力也就越弱,因此许多VR 电影从“讲述故事的时间艺术”向着“感受故事的时空艺术”转变。时间与空间的感受恰好是声音的强项,每一个空间有其不同的声音特征,声音天生又是依赖时间而存在的,可以预见声音是VR 电影最终实现沉浸感的关键。在VR 电影中声音的呈现方式与以往有很大不同,不能够完全照搬传统电影的设计方式,同时考虑到VR 电影强调对所处声音环境的体验和感知,与“声景”理论具有一致性,因此尝试结合声景的相关思维对VR 电影中的声音景观塑造进行一些思考。

2 VR电影声音的技术基础

VR 电影声音的制作流程和传统电影较为一致,都有拾音、制作、还放三个部分。但因为呈现方式的不同,VR 电影的声音制作在工具使用和制作方式上还是存在不同。为了获得更好的沉浸感,声音制式一般选择3D 环绕声格式,并使用耳机还放,同时配合头部跟踪跟随视角的变化而变化。下面对VR 电影声音制作不同环节的技术手段做简要的介绍。

2.1 前期拾音

前期拾音是素材的准备,好的素材可以为后期的制作打下良好的基础,对于VR 电影来说,需要展现更细致的声场信息,这些信息可以通过后期制作获得,也可以在相应的声场中录制获得。目前主流的拾音方式主要是以下两种:采用双耳拾音技术(Binaural Recording) 的人工头拾音;采用声场合成技术的原场 (Ambisonics) 传声器拾音。

人工头拾音技术通过模拟人耳的外部与内部结构,在人工头模型的耳道内放置麦克风来模拟人耳听觉的效果。人工头拾音包含了相应的HRTF 信息,该信息是再现三维声场信息的关键,但因为每个人人头的差异化,HRTF信息难以完全匹配每个观众,所以在再现上还是有所缺陷。另外,人工头拾音只适合于耳机还放,如果采用扬声器还放则会带来严重的声染色。人工头拾音对于拾音位置和方向的要求与镜头匹配,达到视点和听点的统一,对于VR 电影来说,可以采用多方向的双耳拾音,例如3Dio 公司推出的四方双耳立体声话筒(如图1所示),4组双耳立体声话筒分别指向0°、90°、180°、270°,从而与360°的画面视角相匹配。尽管使用方便,但是也存在相应的问题,比如缺少垂直面的信号,缺少人头面部轮廓的信息带来的HRTF信息。

图1 3Dio Omni Binaural Microphone

原场传声器技术是一种球形三维环绕声拾音技术,市面上常见的是一阶原场系统 (FOA),例如Sennheiser AMBEO VR mic (如图2 所示),包含四个心形指向的振膜,分别指向左前、左后、右前、右后,所拾取的原始信号叫做A 格式 (A-format),再经过处理后得到B 格式 (B-format)信号。B 格式包含4个通道的信息,即全方向的W 信号、前后深度的X 信号、左右宽度的Y 信号和上下高度的Z信号,因此能够同时获得水平面和垂直面的信息,最后解码成不同的方位信息与监听扬声器相匹配。一阶原场系统的缺点是空间解析度不够好,因此市面上出现了高阶原场系统(HOA),这类话筒具有更多通道数,能够获得更高的解析度,比如Eigenmike Microphone(如图3所示),这种拾音方式很好地支持了VR 电影任意方向的视角转换。

图2 Sennheiser AMBEO VR mic

图3 Eigenmike Microphone

除了现场直接拾取3D 环绕声之外,还应当针对影片补录更多的声音细节,这里可以采取的方式和传统影片差异不大,此处不再赘述。这些非3D 格式的素材在后期应当进行相应的处理加入三维声中。

2.2 声音制作

VR 电影在编辑和混录上与传统电影差异较大,由于画面展现方式的不同,用于编辑的软件应当可以将球形视频展开,并且能够在调整观看角度的同时实现声画同步。目前能够支持上述模式的视频软件有Kolor Eyes和SpookSync VR。针对于VR 声音制作的音频软件,目前大多数主流的音频工作站都能够支持多路母线输出,最常用的比如Pro Tools HD、Reaper、Nuendo等,都可用于VR 声音制作。制作时将播放软件与音频工作站同步起来,能够使三维声音编辑工作变得直观高效。

对于声像定位和三维空间感的处理则是VR 电影声音制作的重点,需要用专门的插件来处理。比如用于VR 的杜比全景声软件 (Dolby Atmos for VR),其声像定位所参考的三维空间是以鞋盒(shoebox) 为模型的矩形立方体,它包含四个工具,分别用来实现3D 声像定位和元数据生成、将音频和元数据进行混录并输出双耳渲染信号、对所有混录对象的空间定位和电平动态进行监看、视频还放。另外一类则是基于Ambisonics格式的插件包,它的三维空间模型是以听音位置为中心的圆球体,通过水平方位角、高度、距离的调整来设置声像在球体中的位置,通过宽度来改变声像的大小。这两种空间模型会带来不同的听音感受,同样是前方声像的移动,在Dolby Atmos格式中,这种移动是直线进行的,而在Ambisonics格式中则沿着圆弧移动。

市面上用于声音制作的各类软件已有几十种,各自的功能和适用情况也都有所不同,需要声音工作者根据需要进行选择。

2.3 后期还放

针对VR 电影的特点,耳机目前还是最适合的方式,配合头戴设备,将观众从现实世界中隔离出来,完全沉浸于电影所营造的环境中。耳机不存在最佳听音点的限制,也不存在扬声器还放时的串音干扰。耳机重放的原理是将制作好的3D 环绕声进行HRTF编码,经过卷积转换成带有HRTF信息的双声道虚拟环绕声信号,最后经过耳机恢复原始的空间信息。目前编码采用的HRTF 是一个平均值,但是每个人由于头部大小、轮廓等不同,个人的HRTF数值也不同,回放就会有一定的声像畸变,比如产生头中定位效应与前后声像的混淆。意识到耳机回放的这一不足之后,厂家开始研发可以实时校准的3D 音频耳机,当用户佩戴耳机就会开始收集头部和耳廓数据来校准HRTF,使得声音回放更加个人化,更加准确。

声音还放的另外一个重要技术是头部跟踪(Head-Tracking),当观众改变视线方向时,声音和画面不会一起转动,而是保留其原来的位置,这种听音方式与生活经验一致,因此加强了沉浸感的体验。还放过程中需要实时捕捉听音者的头部方位信息并反馈给还放系统,从而随时调整送往耳机的幻像声源。

3 VR电影声音的新特点

基于VR 电影的技术手段,同时考虑到其艺术表现手法,相较于传统电影,VR 电影的声音具有不同的特征。

首先VR 电影的声场不再基于声道。从单声道开始,人们一直在追求如何展现更多的空间特征。无论是立体声,还是5.1、7.1、11.1的环绕声,声音的制作都是基于声道来制作的,然而这种基于听觉错觉的空间声场还无法满足观众对于沉浸感的期待。现在VR 电影以Ambisonics技术为核心,声音制作方式不再受声道的束缚而是转向声场的构建。人们得以用空间的思维进行设计和创作,当脱离了声音与声道关联的思维之后,如何进行声音设计将成为新的问题。

其次在VR 电影中,观众的主导作用得到了极大的强化。原本观众作为接受者,受到银幕的限制,被动去聆听制作好的声音。而VR 电影中观众参与了声音的构建,每个人观看的视角不同,一部影片放映可能经历了完全不同的声音。观众能够自由选择听点、空间和声音过渡的方式,意味着声音制作者需要转变声音制作的思路,应当从单纯对声音的展现,向着暗示和引导转变,让观众能够不自觉地跟随我们的意图去聆听。

另外在VR 电影中已有交互的尝试,观众可以通过自己的动作改变角色的行为,而这种交互会带来更多的变化和不确定性,如何去展现这些交互所带来的声音变化,如何基于这些交互让声音表达不同的含义,都是值得考虑的事情。

由于这些不同,VR 电影的声音设计需要新的艺术思考,“声景”理论的理念与VR 电影声音的新特点有很高的相似性,更加强调一个空间的完整性和听者在其中的精神活动,人与环境具有相互作用的关系这一点对于VR 电影的声音来说具有指导意义。

4 VR电影中声景的三个单元

面对这幺多声音元素,声音工作者应当如何去选择最终呈现的声音元素、去设计各个声音元素之间的关系? 尽管VR电影以观众为主导,但这不意味着只是单纯对环境进行重现,任由观众进行选择,而是要有层次有重点地对声音元素进行设计,从而最终使得观众领会其中的意图。在声音元素的关系上,声景理论将它分为三种基本声音单元:基调声(keynote sounds)、信号声 (signals)和标志声(soundmarks),VR 电影的声音设计同样可以围绕这三点展开。

4.1 基调声与空间背景声

基调声原本是音乐术语,是用来识别一段音乐的关键要素,它不总是被有意识地听到,但是却能让整个作品具有倾向性。这个词在声景中的引入就是为了强调空间环境对于整体感知的重要意义。基调声是人们日常听惯的声音,勾画出在某个环境中固定的声音生态,如乡村的风声、水声、鸟鸣等,城市则习惯于交通等声音元素。这些声音存在的时候人们可能不会过于注意,因为已经成为了一种感知习惯,但是一旦缺少某些元素就会变得不够真实。

基调声在VR 电影中所对应的就是观众所处空间环境的背景声,在声音创作中这不意味着精确还原各个声音元素,而是需要构建一个符合电影基调的环境,观众不会去刻意寻找每一个声音来源,而是在整体上获得大环境的包围感,并且在潜意识中认可自己所处的环境。在这一部分,声音工作者在真实的基础上应当充分考虑作品的需要,让不同的声音元素避免简单的堆叠而是营造一个有利于电影内容的情感氛围,这同时也意味着在声音的呈现上,环境声应当随着观众改变视角产生细微但是难以察觉的变化,在保持真实的同时不至于因为刻意的变化干扰观众的体验。

4.2 信号声与前景音效声

信号声是一种前景声,是经过有意设计并传递某种确切的内容和意义的声音,举例来说有警报声、号角声、钟声等。这一用途的声音在VR 电影中应当有更深层次的作用,而不仅仅是像传统电影那样对画面中的形象和动作进行描绘。

首先,对于VR 电影的叙事上来说,传统基于镜头调度和场面调度的叙事方式被打破了,观众的视线不再局限于银幕上给出的信号,那幺如何引导观众跟随电影的情节发展就成为了一大问题。此时声音感知的全方向性就能够发挥作用了,声音最大的意义是“使看不见的东西存在”,同时又让观众对即将看到的东西有所预感。从心理学上看,在没有看见声源只听到声音时会让人觉得神秘,会促使观众去探索和认知环境,如果说隐藏声源能够给观众留下悬念,那幺展示声源就是一个解谜的过程,这个过程是完成电影叙事的重要手段。比如观众处在一个房间之中,该故事可能发生在窗外,但是观众的视线可能一直在房间的其他方位上,此时窗外如果传来带有信息的声音,观众的视线就会被引导,从而跟随情节的发展融入影片的故事之中。这种声音的调度在VR 电影中应当会占有越来越重要的地位,就如同传统电影中的镜头调度,其内容和意义也会受到更多的发掘。

其次对于VR 电影的交互性来说,声音还可以起到其他的作用。笔者曾经体验过一个VR 影片,观众在一个超现实的奇幻世界中经历时间与空间的变化,其中一个有趣的体验是音效与视觉的交互带来的趣味性。笔者体验过程中有一个场景,观众周围不同的位置有不同的花朵,当观众看向某一朵花,这朵花就会开放并且弹奏出相应的音符,通过这样的方式,观众更愿意长时间进行VR 体验,对于观众接受影片中奇幻世界这一设定也有帮助。通过对信号声与画面结合这样的设计来让观众参与电影情节也是VR 电影声音的设计思路之一。

4.3 标志声的应用

标志声一词则是借鉴了地标 (Landmark)一词,指的是一个区域内唯一或者独有的声音,是有一定文化含义,具有保护价值的声音。这一层面的声音在VR 电影声音未来的发展中有很大潜力,就如同导演的个人标签或者是电影某一形象的IP 化,在未来,声音应当也会成为一部VR 影片的独有特征和记忆标签。目前VR 电影的着眼点还停留在视觉上,对于声音的思考较少,但也已经有影片在这方面做出了一些尝试,比如《恩典潮涌》(Waves of Grace)在讲述利比亚人民与埃博拉病毒抗争的过程中贯穿孩子们的嬉笑声、奔跑声以及当地独特的音乐歌舞,使观众看完影片之后对当地独特的风貌留下印象,也对黑暗中的希望有了共鸣。

5 启示与展望

VR 电影未来的发展必然要依靠两点:技术的进一步发展和新的艺术理论的指导。虽然技术是艺术展现的基础,但有了艺术理论的指导科技才能够向着相应的方向进步。

基于声景理论,在VR 电影声音呈现的目标主要有以下两点:

最基础的是在场感知,以整体环境的构建、改变视角时细微的变化来为听者构建一个真实可信的虚拟空间,沉浸于场景甚至相应的生活状态与情绪,这一点十分依赖科技的发展与制作的技术。现有的制作工具还是主要针对于传统电影的制作,功能也较为零散,不同平台之间的壁垒也依然存在,但随着VR 电影受到重视,相关的制作工具会继续开发,目前的功能也会更加完善和强化,同时也可以借鉴游戏声音的制作方式为VR 电影声音创造更多可能性。

在此基础上还存在人文与审美的感知。观众的主动选择使得每个人听到的内容都是独一无二的,带有个人的主观判断与审美取向,但作品是有表达的,电影总是希望能够在精神层面上与观众产生共鸣。这一点则对创作者的意识有更高的要求,先进的观念和思维作为指导才能够创造出真正有价值的作品,因为优秀的作品最终不依赖于强大的工具,而在于如何表达。❖