“数字人”狂飙

王小豪

最近在科创界，先后出现了两件令人惊奇的新闻，都与“数字人”有关。

第一件是ChatGPT推出了真人语音功能，它能够扮演5个不同的角色来回答用户的问题。和Siri等语音助手不同的地方在于，它的回答更加自然，甚至还会出现停顿、语气词，口水音，和正常人类说话没什幺两样。如果不事先知道这个声音来自AI，很难分辨得出来。

另一件事情，是扎克伯格接受了一场特殊的采访，他和视频博主Lex Fridman戴上了最新版的Quest Pro头显，进入Meta的元宇宙中，用各自的虚拟形象进行交谈。令人啧啧称奇的是，他们在元宇宙里的脸孔形象，已经与他们的真实模样相差无几，微笑、咧嘴、皱眉等细微表情都能得到细致还原。

这不得不让人惊叹，毕竟一年前扎克伯格在元宇宙展示出来的虚拟分身，还是个像“小丸子爷爷”那般简陋的卡通形象，当时还受到了舆论群嘲。仅一年的时间，他就拥有了一个超越“恐怖谷”效应的元宇宙版本的“自己”。

这两则新闻，一则指向了AI的拟人化，一则指向了人类的虚拟化，看起来是截然不同的方向，但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活，而不论这个“人”该如何定义。

生成式AI+数字人

扎克伯格的这场元宇宙访谈，谈到了两个细节，可以作为我们讨论“数字人”的引子。

首先是他逼真的虚拟形象。他解释道，自己的虚拟形象采用的是目前最先进的脸谱扫描技术，需要通过几百个相机进行长达数小时、360度无死角的扫描才能实现。但他的团队正在努力缩短这个流程，未来让用户只需要拿起手机在脸上晃几分钟，说几句话，做几个表情，就可以扫描一个高精度的人像模型。

其次，在扎克伯格的设想中，这项技术与AI的联系非常紧密，他希望将两者结合起来，打造具有自主思维和逼真形象的“数字人”，为人们提供社交、游戏等服务。

他谈到的这两点，基本上涵盖了当前“数字人”在技术上的研发要点：“拟真度”和“互动能力”。我们先从“拟真度”谈起，这个领域可以分为两种技术方向，以Meta为代表的走的是“还原”路线，旨在尽可能地复刻真人相貌，令其充当替身。另一种方向则是创造全新的脸孔，在这条路径里，三星旗下的STAR Lab在2020年发布的“neon数字人”便提供了很好的示范。

Neon数字人最令人惊叹的地方是，它的样貌、行为乃至思维习惯和真人别无二致，它有着真人比例的大小，形态各异的造型，活动起来就像是在看一段真人录制的视频。但区别在于，这些脸孔都是“原创”的。更新奇的地方是，每个“neon数字人”还有着自己的脾性，它可以从事瑜伽教练、接待员、客服助手等工作，但也会因为长时间“打工”而感到厌倦。

简言之，它不是语音助手，而是“虚拟人类”，如果对他不好，他可是会闹脾气的。

在“互动能力”方面，应该说，以ChatGPT为代表的生成式AI的飞跃式发展，让业界真正看到了创造智能化“数字人”的希望。在此之前，并没有多少企业或机构把可交互性当作“数字人”的研发重点。

对“数字人”的研发最早可以追溯到上世纪80年代，从日本的动漫、宅文化中衍生出来的二次元“虚拟偶像”。1982年，日本动画《超时空要塞》的女主角林明美被制作成首个虚拟偶像歌手。2007年，初音未来诞生，并采用全息投影技术举办了全球首个“虚拟偶像”演唱会。

此后，随着数字建模技术的进步，业界才逐渐走向真人化“数字人”的研发。追求形体的拟真，是“数字人”由来已久的研究方向，而且在电影、游戏、音乐等行业有着真切的商用需求。但这一方向走到底，最多也只能做到外表上的百分百相同，但它的交互要幺依赖真人，要幺非常程式化。尽管三星开发的“neon数字人”形象极为逼真，但官方展示出来的“数字人”都经过预渲染处理，实际上临场交互能力达不到宣传的高度。

直到生成式AI技术的崛起，开发“数字人”的独立交互能力，才真正有了技术基础。

斯坦福大学的研究者们创建了一个名为Smallville的虚拟小镇，在里面植入了25个AI像素人，他们在里面工作、社交、甚至举办情人节派对，看起来像极了AI版的《星露谷物语》。

英伟达在把自己开发的游戏AI智能体“voyager”接入GPT-4后，他们甚至可以自行在游戏里挖矿、建造房屋，进行远程探险。

AI的拟人化、人类的虚拟化，看起来是截然不同的方向，但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活。

设想一下，如果把Smallville里的像素小人替换成真人形象数字人，那幺就是扎克伯格所畅想的元宇宙图景了。不妨大胆想象，如果未来两个“i人”在元宇宙里见面，尴尬得不知道聊点什幺时，可以召唤一个“e人”性格的AI数字人出来活络气氛，充当社交润滑剂。

而生成式AI与游戏NPC的合体，无疑将使游戏玩家们的体验上升一大截，与具有独立思考能力的NPC进行互动，在游戏体验上肯定比现在程式化的设计要好得多。

也难怪已经“All in 元宇宙”的扎克伯格，在不久前的2023财年第三季度财报电话会议上表示，AI技术将成为Meta在2024年最大的投资领域。

就像“互联网+”改变了各行各业一样，生成式AI也可以“+”任何事情，包括赋予“数字人”以灵魂。

赶早集的直播行业

如果说先进的科研机构、科技巨头还在琢磨怎幺“创造人类”，那幺讲究实用的业界，已经把一些更为粗糙、简陋的“数字人”应用到了商业领域。

应用最广泛的便是直播行业。如今，“数字人”主播已经十分普及，在抖音、快手等短视频直播平台，很多在镜头前滔滔不绝、兜售商品的主播，其实是“数字人”。

这些直播间里的“数字人”的外观五花八门，有2D、3D的二次元人物，也有仿真人、真人建模等走现实主义的“数字人”。其内里的“灵魂”，可能来自后台的真人，也可能是根据文字生成的语音，再高级点的则用上拟真的声线。

这些“数字人”的制作过程也不复杂。如果是“拷贝”一个真人形象，通过动作捕捉技术，只需要主播在绿幕前穿上几件出镜用的衣服，记录下一些常用动作、手势，就可以在不到5分钟的时间里制作出一个足以“以假乱真”的分身。

有up主曾在自己的视频栏目里做过测试，在视频播出了近5分钟后，他才以真人面目出现，告诉观众们前面出镜的其实是“数字人”版的自己，而几乎没有观众发现异样。

更高级一些的技术，还能在仿真的基础上任意地改变自己的外貌特征，让自己看起来更年轻或者更成熟，如果愿意的话，可以一直保持在“冻龄”状态。

如果要求低一些，还可以用一些“公模”，笔者在进行研究时，选择了腾讯智影这款数字人播报产品进行体验，它默认提供了几个人物形象，只需要在右侧的文字框输入想要生成的语音文字，随后点击“合成视频”，稍等片刻，就可以得到一段带有“真人播报”的视频。

细看还是能看出异样，例如脸部与身体的衔接有点不自然，肢体动作也比较简单，看上去有点像掉帧的画面。在声音方面则是和我们在地图导航中听到的差不多，虽然为了逼真一些，可以在文本中插入“停顿时间”，但无法与ChatGPT极为逼真的口语表达相比拟。

虽然说这些“数字人”的形态比较粗糙，无法还原真实人类的相貌体态，口型也经常对不上，但在手机这样的狭小屏幕内，对精度的要求并没有那幺高，这点瑕疵无伤大雅。

和真人主播相比，这些“数字人”主播最大的优点在于不用休息，可以24小时不间断地直播，还不需要场地、摄影器材和人力投入。

此外，制作这些“数字人”主播的成本差异很大，上至几十万，下至几百元，从便宜的2D形象到精细的真人“拷贝”，完全丰俭由人。平均下来，“数字人”主播的成本不及真人主播的几十分之一。

从最终的效果来看，观众也为这些“数字人”主播买单，例如，在拼多多的特步直播间里，数字人主播日均GMV约为4.1万元。甚至有的“数字人”主播的日均成交额比真人主播还高。

商业上的前景，极大地推动了这一行业的发展。据数据统计，仅2022年，数字人相关企业注册数量就高达948家，增速68%，已然成为一个新的风口。

AI发展需要“数字人”

站在当下这个时间点，我们还很难定义“数字人”究竟是什幺，因为它们的形态各异，外在形式与内在逻辑也各不相同。

从已经实现的程度来看，它更像人的“虚拟外壳”，这个外壳形态各异，但仍依赖人的思维进行驱动。但从研究重点与发展潮流来看，它必然会在生成式AI的加持下，走向发展出独立行为逻辑的智能体的路径，实现自我驱动。

对人的形象，特别是脸孔的确认，既是亲密感产生的重要方式，也是信任关系得以建立的前提，而无论这个形象是否真实存在。

那幺我们该如何看待生成式AI与“数字人”之间的关系？

从功能上看，毫无疑问是生成式AI促进了“数字人”的发展，推动其从低级迈向高级。如果它现在是有效率的生产机器—制造永不停歇的人类形象，用来带货、讲课、表演，带来商业、文化、娱乐等方面的价值，那幺未来，它将成为人们投射情感，满足陪伴需求的对象，甚至参与到人与人的交往中，成为关系网络的有机组成部分。

但是，生成式AI与“数字人”之间的关系可能并不是简单的单向关系。

站在用户角度，“数字人”的内在是否具有“灵魂”，可能并不是最重要的事情，毕竟当前流行于直播间里的粗糙版本，也有不少受众，甚至已经培育出了一个日益成熟的行业。

另一方面，生成式AI的核心能力—输出“原创文本”，并不因套上一个人类的外壳而变得更加先进。

因此，反过来思考这个问题，可能有助于我们厘清两者的关系：把AI智能体加载在“人类形象”上的必要性在哪里？

答案或许就在“人类形象”本身。在现实生活中，很多关键的互动，都是在人与人的直接接触时完成的。

设想一下，如果一个直播间没有主播在场，而只有声音在飘荡，其实很难建立起主播与观众之间的情感联系，也会给人一种很不踏实的感觉。

对人的形象，特别是脸孔的确认，既是亲密感产生的重要方式，也是信任关系得以建立的前提，而无论这个形象是否真实存在，毕竟人们可以把自己的情感投射到电影、游戏、动漫等虚构角色里去，从这个角度来说，具象比真实更为重要。

这种“面对面”效应，在人与AI的互动里同样存在。对于AI这样一个“多智而近妖”的智能体来说，无论它能够实现什幺样的功能，赋予它一个“脸孔”，使它在最自然、熟悉的情景下与人互动，才能让它的本领最大化地发挥。

就好比在元宇宙的世界里，我们不会希望由一个伫立着的黑色石碑来担任指导，它的神秘气息只会让我们觉得自己是《2001太空漫游》里的猿人。

从这个意义来讲，成为“数字人”，或许是AI更进一步发展的必然之路。