AI补帧技术的影像化应用探析

谢辛

(北京电影学院，北京 100088)

1 AI补帧技术分析

伴随媒介技术与影像制作技术的发展，人们对于真实度的体验已然常态化，不仅期待看到流畅、平缓和逼真的视听作品，对既往帧率较低的影像作品视效，也产生某种新的需求：是否能够借助AI技术，完成对较低帧率的弥补，从而实现帧率与视效更完美的匹配。

1.1 帧与补帧

帧(Frame)，是影响影片流畅度的关键。在电影正式诞生之前，科学家、研究者已然对视觉与心理产生兴趣。皮特·马克·罗葛特(Peter Mark Roget)在其论文《通过垂直孔看到车轮轮辐时光学欺骗现象的解释》(Explanation of an Optical Deception in the Appearance of the Spokes of a Wheel When Seen Through Vertical Apertures，1824)中首次提出视觉暂留(Persistence of Vision)概念，为电影拍摄与放映的帧速率提供理论依据。从人眼生理角度来看，“由于人类眼睛的特殊生理结构，如果所看画面之帧率高于每秒约10至12帧的时候，就会认为是连贯的。”但因为当时拍摄所用胶片成本限制等原因，导致拍摄与放映的帧速率直到电影从无声进入有声时期之后，才统一定为我们熟知的标准：24fps。

如今，帧已经成为电影制作与观看环节常态化的技术指标，帧速率的不断变化，体现出技术发展与观影效果的革新。更高的帧速率，对应更好的视觉持久性，这一点毋庸置疑。

为何要进行补帧的尝试？答案似乎与人们对真实性的不断切近的心理认知有直接的关联。无论创作者还是观影者，都希望能够借助更高的帧速率观看到更为逼真、自然和流畅的画面，如此，或将促使电影能够在相对完美的视效中更好地去完成故事讲述，实现叙事与视听语言更好的配合。可以说，从“真”到“帧”，成为人们需求与实践的焦点，也促使补帧技术逐渐成为现实。

1.2 补帧技术的发展

补帧的一大目的在于将未能拍摄记录或丢失的动作补上，从而实现物体运动的顺滑流畅。技术研发者曾借助AMD、SVP(SmoothVideo Project)、光流法渲染及电视MEMC补帧芯片等计算画面中像素的运动轨迹，以插帧的方式获得补帧效果，画面更加流畅和顺滑。根据图1所示，假设补帧区间对应影片前后帧为Frame T、Frame T+1，区间内补帧的画面均根据不同帧速率的需求进行补帧，从而完成从Frame T到Frame T+1更好的流畅度。

图1 补帧示意图(来自theappliancesreviews.com)

然而，传统的补帧方法普遍存在一种限制：针对平面物体的补帧相对有效。原因在于其计算的点位较为简单，通俗地说，即为在对二点进行比较之后，取中间点进行关联性补帧。因此，面对影像中越来越复杂动态物体的出现，比如前方有遮挡的跳跃动作或带转体的跳跃动作发生时，Frame T+1将呈现出与Frame T相异的新元素，而不再是Frame T二维跳跃动作的连续，此时传统补帧的计算能力就无法满足最终效果的实现。更符合电影技术不断发展的补帧新技术的开发迫在眉睫。

1.3 AI补帧技术应用

当补帧需求与补帧技术之间出现不对等时，人们潜意识中的研习欲望逐渐促使该技术的应用尽快落地。同时，伴随AI智能技术的发展，AI深度学习为补帧提供思路，并形成AI补帧之于慢动作影像的应用。

2018年，NVIDIA与美国马萨诸塞州大学和加利福尼亚大学的研究人员，共同开发出基于深度学习系统的路径，其能够将标准视频转换为慢动作，同时又不丢失视频本身的流畅度。研究人员指出，“人的一生中有许多难忘的时刻，你可能想用慢动作镜头记录下来，因为它们很难用眼睛清晰地看到：婴儿第一次走路，一个艰难完成的滑板技巧，一只狗被球击中……虽然可以用手机拍摄每秒240帧的视频，但以高帧速录制所有内容是不切实际的，因为它需要大容量存储空间，并且对移动设备的功耗很高。”基于上述视效呈现的期望，该团队借助NVIDIA Tesla V100 GPUs与cuDNN-accelerated PyTorch深度学习框架，以每秒240帧的速度拍摄11000多个日常生活视频和体育活动视频，为人工智能的卷积神经网络(CNN，Convolutional Neural Networks)提供深度学习的基石，进而借助这一高效识别方法预测额外帧(Extra Frames)，最终完成慢动作补帧需求。值得一提，在2015年，Morpho的フレーム补间技术(Frame Interpolation)出现。作为一种嵌入式软件程序，其能够借助对摄影机的运动预测，在连续图像帧之间自动生成中间图像，最终在120fps视频中生成960fps的极高帧率。这些补帧技术的出现，足见人们在影像、视觉与帧之间的欲望值始终处于高位。

AI以其深度学习的能力满足人们对于慢动作带来从“看不清”到“看得清”的视觉快感享受，更拓展了对全视觉享受追求的维度，因为其补的并不是单帧，而是经过对大量影像素材的深度学习之后，所生成的“补帧的集合”。这一“集合”的好处在于，能够规避对动作流畅度造成影响的非典型性因素。仍以带转体的跳跃动作为例，AI可学习《黑天鹅》《芳华》等电影中的舞蹈动作，也可学习体育比赛、游戏中的转体动作，当转体跳跃成为一种“集合”之后，在适当的影像中进行精准、对位的补帧，或成为AI深度学习的成果展示。

2020年，上海交大开源新的插帧算法，即深度感知视频帧插值(DAIN，Depth-Aware Video Frame Interpolation)，其促使补帧真正根植于“补”的价值最大化，不仅能够将30fps插帧至480fps，更将补的“帧”指向了想象界，借助对深度变化的测量和估算，进行比以往补帧更进一步的遮挡检测(图2)。有研究者称，“给定两个时刻的输入帧，先估计光流和深度图，然后使用建议的深度感知流投影层生成中间流……模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲，合成输出帧。”该应用程序更与视听新媒体发展对应，除了电影，可以广泛地插值新帧应用于动漫等领域。

图2 DAIN补帧的自动识别景深示意图(来自互联网资讯博主极客湾)

虽然目前DAIN仍需使用支持CUDA的计算机，补帧的时长也可能耗损太久，对一些偏重艺术性、实验性而弱化逻辑关联的影片补帧也存在欠缺，但种种缺陷的出现一方面表明AI深度学习对于影像应用的前景来说尤为广阔，同时也促使从阿兰·麦席森·图灵(Alan Mathison Turing)开始的那种对于“机器能否思考”的想象，逐渐从疑问变成可以实现的现实。这也成为人类在媒介化、智能化生存环境中，不得不面对的现实。

2 AI补帧影像化应用前景

从上文不难看出，对于深度学习补帧的尝试，只是刚刚开始。AI补帧对视听新媒体时代越来越创新形态、越来越多元内容的影像发展而言，势必成为一大利器，激发受众更为广泛的好奇心，也冲击业界相关工作者的工作现状。但无论如何，技术的发展由人类的欲望决定，机器深度学习的目标也更深入和广泛地指向了更具有想象力的层面。

2.1 动漫、游戏的补帧实践

在DAIN出现之后，对于动漫创作者来说，之前可能每秒要画12张，如今只需要8张，即可借助补帧实现24fps的效果。但互联网资讯博主极客湾也指出，在日本动漫中，“24帧8画的动漫比8帧实拍视频要更难补帧，因为动漫虽然24帧，但是不可能1秒24张画，好一点的12张，大多数是8张，甚至更少。所以动漫补帧往往用在大场景上，人物的补帧很难流畅。”由此，对于当下和未来一段时间内使用DAIN补帧的用户而言，进行实拍影像的补帧或许更为可行。

值得一提，虽然与动漫同样受到年轻受众欢迎的游戏的流畅度主要依靠显卡，但在某个应用程序无法产生帧速率进而开始丢帧时，也出现对应的补帧方案。比如2018年，Steam VR推出运动平滑(Motion Smoothing)功能，“它将根据最后两个帧来估计运动和动画，并推断一个新帧。合成新帧可以令当前应用程序保持全帧速率，并且避免抖动。这意味着玩家仍然能体验全帧速率(Vive和Vive Pro为90Hz)，但应用程序只需要每2帧渲染1次，从而大大降低了性能要求。”

科技媒体36氪与数据智能服务商个推大数据调查显示，由于新冠肺炎疫情的影响，致使宅在家的受众尤其是年轻群体对游戏依赖度较高，以手游为甚。由此，手机屏幕刷新率(对应帧速率)的硬件提升，以及智能化补帧或将被推为技术领域的焦点。比如2020年3月，OPPO推出的Find X2 Pro系列手机具备视频动态插帧技术，可借助算法补帧将30fps的视频画面提升至120fps，用户在观看爱奇艺、优酷、腾讯视频、Netflix等合作视频平台的视听内容时，均能在手机终端即可享受舒适的流畅度。

2.2 老旧影像的AI补帧修复

补帧似乎已经成为与智能化、网络化生存的受众生活不可分割的部分，其存在越来越趋于常态。进一步思考和挖掘补帧的功能性，我们会发现其不仅满足人们对于新生事物的好奇和欣喜，更可以将怀旧、传统与新技术结合，实现老旧影像的智能化传承。

2020年3月，中国互联网络信息中心(CNNIC)发布最新《中国互联网络发展状况统计报告》，截至2020年3月，我国网民规模为9.04亿，50岁及以上年龄群体占比16.9%，中老年龄受众持续增加。这一方面取决于老龄社会的不断加剧，一方面也说明新媒体与老年群体之间的“代沟”正在不断弥合，老年人适应新媒体时代发展的现实不容小觑。因此，作为创作者和技术开发者，针对庞大的、不断增加的老龄受众，将他们喜爱的传统影像借助AI补帧的方式重新制作，或可打开某种有针对性的市场供需新局面。

诚然，在AI补帧的同时，还可以借助Gigapixel AI等增强程序对影像画面分辨率(Image resolution)做超分辨率处理。我们设想某个480p的老旧电影补到1080p之后，除了更真实、清晰和流畅的视觉愉悦，亦能凸显某种与人文关怀正相关的情感，这或许正是人工智能深度学习的重要价值。

2.3 AI影像应用前景预测

经过上文分析，我们发现AI补帧与影像之间的应用存在较好的前瞻性。面对诸多利好和技术带来的快感，我们更需对此进行反思和自省，力求在AI补帧的既有尝试中获得更多、更深层的拓展，并对其他硬软件技术的研发提供思路。

图3 画面撕裂示意图(来自easypcmod.com)

第一，需避免画面撕裂(Screen Tearing)等潜在问题。画面撕裂指的是显示器将多帧同时显示在一个画面上的情况(图3)。如果原视频帧速率较低，动态画面又相对较多，则补至更高帧速率之后出现画面撕裂的可能性就越大。这就对显卡与屏幕更新率之间的对等性提出了更高的技术要求。

第二， AI补帧引发反向思维。如果说补帧是将缺失的帧补足，其反向则体现为减帧。比如与动态影像直接相关的帧间(Inter)压缩，可以借助前后帧来推测该帧(待压缩帧)的数据值。帧间压缩能够减小本地磁盘占用空间，对借助流媒体观看视频内容的用户而言，能够在保证观影效果的前提下极大程度地保证流畅度。抽帧则是在动漫行业已应用的一种技术手段，如图4所示，不同帧速率带来的视觉“流畅”感也不尽相同，但并非越高的帧率等同于“流畅”，尽可能避免失真才是动态创作与技术应用之间达到平衡状态的理智选择。

图4 动漫抽帧示意图(原图为GIF，来自zhihu.com)

第三，激发更多智能想象。比如2020年5月，华盛顿大学和Facebook借助单目深度估计算法，“只需要对视频中任意帧进行配对采样，就可以将这一过程扩展到整个视频，对单目视频中的所有像素进行几何一致的深度重建”，从而实现单目视频(Monocular Videos)重建3D场景的尝试，如果引入电影领域，或可运用至诸多难以实现的特效场景制作之中。

3结语

注释

①与帧间压缩相关的帧内(Intra)压缩概念，更像是图片压缩，与该帧的前后帧无关。