宁 欣 丁友东

(上海大学上海电影学院,上海 200072)

1 引言

近年来,随着市场和观众对重置老电影的需求日益增高,越来越多的低画质老电影被重新搬上了大银幕,如2012 年3D 重置版 《泰坦尼克号》、2017年重置版《大话西游之大圣娶亲》等。低画质的经典老电影如何提高画质,从而达到现在观众的观影需求,是目前学术界和电影工业界研究的热点。然而受制于不同的拍摄设备、受限制的网络传输速度、不同的压缩编解码方式以及播放端设备的区别,将现有海量的低画质电影利用数字媒体技术和计算机技术重置为高画质的电影是目前最可行的方法之一。

影响电影画质的主要因素有图像分辨率、帧率、动态范围、色域和亮度,其中提升视频分辨率和视频帧率是最直接改善电影画质的手段,并且随着视频显示器的不断发展,为其提供匹配分辨率和帧率的视频源也迫在眉睫。

本文主要讨论以数字格式存放的低分辨率和低帧率的电影,通过对其分辨率和帧率进行提升,以此来达到画质增强的目的,从而匹配显示设备和满足观众对更高画质的观影需求。从时间域上对电影帧率提升是通过视频插帧 (Video Frame Interpolation,VFI)算法,VFI算法在原始电影前后帧之间插入新帧从而提高电影帧率,传统电影的帧率一般是24FPS,通过VFI 算法可以将帧率提升至30FPS、60FPS、120FPS或更高。从空间域上对电影分辨率提升的方法称为视频超分辨率 (Video Super-Resolution,VSR)算法,VSR 算法是对空间域中的像素点进行填充,从而达到更高的分辨率,比如2K 电影的分辨率提升至4K 或8K 电影。

随着人工智能和深度学习的快速发展,基于深度学习的VFI算法和VSR 算法在视频增强任务中表现优异。不同于图像,由于视频是动态画面,时间信息对视频的影响非常大,缺乏时间信息会使画面出现抖动或闪烁,所以基于深度学习的VFI算法和VSR 算法不仅可以分别对视频的帧率和分辨率进行提升,并且可以通过联合两种算法的方式对视频进行增强。电影画质不同于自然视频画质,电影情节场景多变,画面细节较多,并且多数电影会进行后期处理。与自然视频相比,使用基于深度学习的VFI算法和VSR 算法对电影进行画质增强的难度较大,细节处理要求高,计算耗时长,并对算法的性能要求高。本文针对以上问题,介绍了基于深度学习的VFI算法和VSR 算法以及分析比较这些算法的性能效果,研究分析深度学习算法在电影画质增强中的应用实例,同时讨论了VFI算法和VSR 算法在电影画质增强领域中目前存在的主要问题和对未来的展望。

2 基于深度学习的VFI算法

根据欧洲广播联盟 (EBU)和英国广播公司(BBC)的相关研究,视频帧率会影响UHDTV 的视觉沉浸式体验,低帧率会造成电影画面出现抖动、闪烁、运动模糊和画面顿挫等问题,严重影响观影体验。虽然高帧率电影拍摄和显示设备正在快速发展中,但海量低帧率电影还是以24FPS等主流形式放映。VFI算法可以使低帧率电影转换成高帧率电影,使观众享受到不输于直接采集的高帧率电影内容。

主流VFI算法按是否考虑帧间运动信息分为两种:第一种不考虑帧间运动信息,如插黑帧和重复帧等,这类方法常用于静态视频,对于运动幅度较大的视频则无法消除运动模糊、抖动等问题;第二种是目前研究人员的重点研究方向,该方法充分考虑帧间的运动信息,可以有效地解决上述问题。该方法一般称为基于运动估计和运动补偿 (Motion Estimation and Motion Compensation,ME&MC)

的VFI算法,如图1所示。运动估计采用的方法主要有块匹配运动估计和光流运动估计,目前比较常用的方法是光流运动估计。光流运动估计利用光流法显式表现出像素在某时刻运动矢量,如图2所示。图2 (a)是矢量光流场,其中箭头表示像素在某时刻的运动方向,图2 (b)则为颜色编码后的光流场,颜色编码矢量是目前流行的呈现方式。运动补偿是根据运动估计得到原始像素在目标帧的插值位置,然后将原始像素插值到中间时刻得到中间帧。需要注意的是目标帧即为中间帧,中间帧是插值之后得到的,在原帧序列中是不存在的。

图1 ME&MC框架示意图①

图2 光流运动矢量和颜色编码矢量②

深度学习算法近年来在计算机视觉领域大放异彩。在VFI任务中,与传统方法相比,基于深度学习的VFI方法表现出更优的效果。基于深度学习的VFI算法框架如图3所示,其中图3 (a)是基于光流法的深度学习插帧算法框架,t-1时刻和t时刻前后帧通过卷积神经网络(Convolutional Neural Networ,CNN)预测出全部像素的光流场,然后逐像素进行双线性补偿插值生成中间时刻帧。由于插值像素是根据像素位移计算得出,而光流估计的精度影响像素位移的对齐程度,所以该方法会不可避免地产生空洞现象或模糊现象,而该方法的插帧效果取决于光流估计的精度。Junheum Park等人提出双边运动网络和动态滤波器生成网络,该组合网络可以进行双边运动估计,使帧间对齐的精度更高。对比双向的运动估计网络,有一些研究人员也会使用单向的运动估计网络,比如Zhewei Huang 等人使用一种实时的中间流估计网络 (Real-time Intermediate Flow Estimation,RIFE)进行中间光流估计,该方法是由粗到精 (Coarse-to-fine)直接估算中间流,所以速度也更快。该算法不依赖预训练的光流模型,可以支持任意时间步的插帧。为了解决大运动的问题,Simon Niklaus等人首先提出了一种基于核学习的网络模型——AdaConv,如图3 (b)所示。该方法是对参考帧的局部像素块进行卷积操作,在传统卷积中感受野的尺寸大小是固定不变的,而该方法对相应的运动幅度给定一个尺寸大小合适的卷积核。运动幅度的尺寸决定了采样点的分布,所以当处理运动幅度超过预定义好的卷积核尺寸的像素时,AdaConv模型并不适用。针对上述问题,Zhihao Shi等人提出了一种新的广义可变形卷积视频插帧框架,该方法可以有效地以数据驱动的方式学习运动信息,并在时空中自由选择采样点,在处理复杂运动时,该方法性能表现优异。由于基于可变卷积核的方法都需要估计出足够大尺寸的卷积核,在处理较高分辨率视频时,会对存储空间产生巨大的需求。

图3 基于深度学习的VFI算法框架③

3 基于深度学习的VSR算法

图像分辨率是直接影响电影画质的主要因素之一。分辨率的高低代表采样空间像素的多少,而分辨率越高的画面所包含的细节越多,细节越多的画面给人最直观的感受就是看起来更清晰、细腻和平滑。受限于技术和价格的原因,许多早期的电影拍摄和播放往往使用分辨率较低的摄影机和显示器,随着技术的发展,目前拍摄设备和显示设备的分辨率可以达到4K、8K 甚至是更高的分辨率。为了提高早期低分辨率电影的分辨率并匹配对应分辨率的显示设备,对电影进行重拍的可行性不高且代价太大,目前最常用的方法就是利用VSR 算法将海量的低分辨率电影重制为高分辨率电影。

由于视频序列是许多单帧图像组成的,所以传统VSR 算法的原理是基于图像超分辨率算法对视频序列中的所有单帧图像单独进行分辨率提升。此方法虽然对单帧分辨率的提升效果较好,但由于视频是连续画面,单独填充每帧的空间细节会导致丢失帧与帧之间的时间信息,导致视频出现闪烁现象。针对以上问题,研究人员考虑到视频前后帧之间时间信息的重要性,因此提出利用基于深度学习的VSR 算法结合时间信息对空间分辨率进行提升,该方法不仅考虑空间分辨率且表现效果最佳。

多数基于深度学习的VSR 算法技术框架如图4所示,包括对齐模块、特征提取与融合模块和重构/上采样模块。其主要流程是:第一步将大量高分辨率视频序列数据通过下采样操作生成低分辨率数据帧,以此为生成的训练模型做准备;第二步低分辨率数据输入对齐模块进行帧间信息对齐,需要注意的是该模块与VFI算法对齐模块的主要作用类似,对齐方法多数是基于光流法,且该模块一般由神经网络搭建,对齐后,再对数据帧进行特征提取,最后再进行上采样使低分辨率数据帧重构为高分辨数据帧,生成的高分辨率帧和原始高分辨率帧进行对比可以评估出算法的性能;第三步将需要提高分辨率的视频序列输入上述训练好的模型即可。在此需注意深度学习算法是由数据驱动,所以当用一种类型数据训练好的模型对不同类型数据进行测试时,模型表现的效果也是不同的,使用同类型的数据训练和测试模型的效果会更好。

图4 基于深度学习的VSR 算法框架④

ME&MC技术常用于将前后帧与目标帧对齐,是解决VSR 问题最常用的方法,Muhammad Haris等人提出一种可以同时处理VSR 和VFI的端到端的STARnet算法,该网络使用ME&MC 提取低分辨率低帧率数据的时间和空间信息。Ratheesh Kalarot等人提出一个基于全卷积网络的多阶段VSR 算法,该算法由基于运动估计和运动补偿的输入子网络,混合主干子网络和上采样网络组成。为了提高算法性能,作者将处理流程分为两个阶段,即将第一个阶段的输出作为第二个阶段的输入,另外该算法处理的数据场景类型是不确定的。基于ME&MC的VSR 算法虽然比较成熟,但是在光照变化较大或运动幅度过大时,不能保证其光流估计的准确度。在这种情况下,与上述VFI算法相同,研究人员提出使用可变卷积来对齐帧。Yapeng T ian等人为了克服光流不准确的困难,提出在不计算光流的情况下,在特征层上自适应对齐目标帧,利用可变卷积网络的特性动态预测出采样卷积核的偏移量,该网络简称为TDAN。Jiale Chen等人提出一种可用于视频增强和视频超分辨率的网络——VESRnet,该网络设计了一个独立的非局部模块来提取帧间信息和一个通道注意残差块来提取空间特征信息,值得一提的是该方法在2019年优酷视频超分辨率和视频增强比赛中获得了第一名。虽然可变卷积的方法解决了光流对齐不准确的缺点,但是该方法的计算复杂度较高,模型损失函数收敛条件较为苛刻,所以该方法在今后的研究中还有许多改进的空间。

4 协调不同技术进行电影画质增强实例分析

电影史上第一部电影 《火车进站》由卢米埃兄弟拍摄于法国某城市,视频长度只有45 秒,是由35mm 格式胶片制作,放映机通过手摇进行驱动,电影的原始帧率在16FPS到24FPS之间,与现在的电影相比,虽然该片拍摄的内容非常简单,时间较短,且没有任何故事情节,甚至也没有其他的镜头,但该片的实际意义已经远远大于其内容。如图5所示,由于当时胶片拍摄技术尚未成熟,画面中人物、火车和其他景物非常模糊,从图5中我们可以看到火车行驶的过程中带有明显的伪影,人脸与衣物细节非常不明显。图6为修复后的电影画面,修复者Denis Shiryaev通过使用AI技术分别对该片的分辨率和帧率进行提升。从图6中看到,火车运动的伪影明显减少,并且可以轻松识别出铁轨上的轨道和石子,人物脸上的表情和身上的衣物细节也更加清晰。该片经过修复后的分辨率和帧率达到了惊人的4K/60FPS,画面的清晰度和流畅度几乎可以媲美目前的智能手机。该片分辨率的提升主要使用Topaz实验室的Gigapixel AI软件,Gigapixel AI是一款由Topaz Labs公司开发的图片无损放大工具,该软件底层算法的实现主要是基于深度学习的VSR 算法。该算法不仅可以对画面分辨率进行提升,同时可以添加自然细节。而帧率主要依靠DAIN Image图像编辑应用程序来进行提升,其中该程序使用的主要VFI算法是由Wenbo Bao等人在2019年计算机视觉顶级会议CVPR 中发表的一篇论文中提出的。作者提出一个名为深度感知视频插帧 (Depth-Aware Video Frame Interpolation,DAIN)算法,该算法通过探索图像的深度信息来检测遮挡,然后利用深度感知光流投影层来合成中间流,与其他方法相比,该算法的性能更强。

图5 电影 《火车进站》修复前画面⑤

图6 电影 《火车进站》修复后 (4K/60FPS)画面⑥

除上述修复软件外,目前行业内也有类似的其他软件。例如电影 《厉害了,我的国》是由中影电影数字制作基地开发的人工智能图像处理系统“中影·神思”进行修复。该片修复团队在四个月修复增强了约30 万帧图像,将修复时间缩短了四分之三,大大提高了影片修复效率,节约了大量时间和人力成本。此外,爱奇艺公司使用自主研发的Zoom AI视频增强技术软件对我国经典抗战电影 《地道战》进行了修复。Zoom AI针对老电影的特点,将整个修复过程分为四个阶段:(1)去划痕;(2)去噪和锐化;(3)颜色增强;(4)分辨率提升。四个阶段可以依次串行操作处理来达到最优画质。

尽管AI修复软件功能强大,但是由于电影对画质要求极高,细小的瑕疵也会严重影响观众的观影体验,所以目前主流的修复手段依旧是“AI+人工”。首先使用AI进行批处理修复,然后修复师进行细致的人工修复。针对AI修复,往往考虑的是如何增强视频画质,使其达到超高清画质。影响电影画质的因素主要有分辨率、帧率等,串行处理这些因素是现在最常用的方法,但是由于电影具有镜头多、亮度变化明显等特点,串行处理时间较长且不能达到最佳的画质效果。而视频各个因素之间的表现也会互相影响和互相制衡,通过提高分辨率可以使画面的细节更清晰,细节增多的同时需要增强画面的亮度,而亮度的提高又会增加人眼对画面抖动和闪烁的敏感度,高帧率则可以通过减少运动模糊来消除视频抖动,使画面更流畅。所以如何综合处理视频分辨率和视频帧率等问题,如何平衡协调这些画质影响因素使电影达到最优画质是今后研究的重点和难点。

5 结语

本文针对于电影画质增强问题,介绍了基于深度学习的视频超分辨率技术和视频插帧技术的实现流程和方法。针对两种技术的特点,介绍了相关前沿深度学习算法,并且介绍了基于AI技术修复增强电影画质的实例。针对不同技术对电影画质进行增强时会出现互相影响和互相制衡的问题,本文提出综合协调不同技术进行电影画质增强的必要性。

①图片来源:包文博.视频帧率上变换的递推建模与深度学习方法研究 [D].上海交通大学,2020.

②图片来源:包文博.视频帧率上变换的递推建模与深度学习方法研究 [D].上海交通大学,2020.

③图片来源:包文博.视频帧率上变换的递推建模与深度学习方法研究 [D].上海交通大学,2020.

④图片来源:Liu H,Ruan Z,Zhao P,et al.Video super resolution based on deep learning:A comprehensive survey [J].ar Xiv preprint ar Xiv:2007.12928,2020.

⑤图片来源:https://v.qq.com/x/page/i1584bnfe5f.html.

⑥图片来源:https://v.qq.com/x/page/x3065uk024o.html.