王小豪

最近在科创界,先后出现了两件令人惊奇的新闻,都与“数字人”有关。

第一件是ChatGPT推出了真人语音功能,它能够扮演5个不同的角色来回答用户的问题。和Siri等语音助手不同的地方在于,它的回答更加自然,甚至还会出现停顿、语气词,口水音,和正常人类说话没什幺两样。如果不事先知道这个声音来自AI,很难分辨得出来。

另一件事情,是扎克伯格接受了一场特殊的采访,他和视频博主Lex Fridman戴上了最新版的Quest Pro头显,进入Meta的元宇宙中,用各自的虚拟形象进行交谈。令人啧啧称奇的是,他们在元宇宙里的脸孔形象,已经与他们的真实模样相差无几,微笑、咧嘴、皱眉等细微表情都能得到细致还原。

这不得不让人惊叹,毕竟一年前扎克伯格在元宇宙展示出来的虚拟分身,还是个像“小丸子爷爷”那般简陋的卡通形象,当时还受到了舆论群嘲。仅一年的时间,他就拥有了一个超越“恐怖谷”效应的元宇宙版本的“自己”。

这两则新闻,一则指向了AI的拟人化,一则指向了人类的虚拟化,看起来是截然不同的方向,但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活,而不论这个“人”该如何定义。

生成式AI+数字人

扎克伯格的这场元宇宙访谈,谈到了两个细节,可以作为我们讨论“数字人”的引子。

首先是他逼真的虚拟形象。他解释道,自己的虚拟形象采用的是目前最先进的脸谱扫描技术,需要通过几百个相机进行长达数小时、360度无死角的扫描才能实现。但他的团队正在努力缩短这个流程,未来让用户只需要拿起手机在脸上晃几分钟,说几句话,做几个表情,就可以扫描一个高精度的人像模型。

其次,在扎克伯格的设想中,这项技术与AI的联系非常紧密,他希望将两者结合起来,打造具有自主思维和逼真形象的“数字人”,为人们提供社交、游戏等服务。

他谈到的这两点,基本上涵盖了当前“数字人”在技术上的研发要点:“拟真度”和“互动能力”。我们先从“拟真度”谈起,这个领域可以分为两种技术方向,以Meta为代表的走的是“还原”路线,旨在尽可能地复刻真人相貌,令其充当替身。另一种方向则是创造全新的脸孔,在这条路径里,三星旗下的STAR Lab在2020年发布的“neon数字人”便提供了很好的示范。

Neon数字人最令人惊叹的地方是,它的样貌、行为乃至思维习惯和真人别无二致,它有着真人比例的大小,形态各异的造型,活动起来就像是在看一段真人录制的视频。但区别在于,这些脸孔都是“原创”的。更新奇的地方是,每个“neon数字人”还有着自己的脾性,它可以从事瑜伽教练、接待员、客服助手等工作,但也会因为长时间“打工”而感到厌倦。

简言之,它不是语音助手,而是“虚拟人类”,如果对他不好,他可是会闹脾气的。

在“互动能力”方面,应该说,以ChatGPT为代表的生成式AI的飞跃式发展,让业界真正看到了创造智能化“数字人”的希望。在此之前,并没有多少企业或机构把可交互性当作“数字人”的研发重点。

对“数字人”的研发最早可以追溯到上世纪80年代,从日本的动漫、宅文化中衍生出来的二次元“虚拟偶像”。1982年,日本动画《超时空要塞》的女主角林明美被制作成首个虚拟偶像歌手。2007年,初音未来诞生,并采用全息投影技术举办了全球首个“虚拟偶像”演唱会。

此后,随着数字建模技术的进步,业界才逐渐走向真人化“数字人”的研发。追求形体的拟真,是“数字人”由来已久的研究方向,而且在电影、游戏、音乐等行业有着真切的商用需求。但这一方向走到底,最多也只能做到外表上的百分百相同,但它的交互要幺依赖真人,要幺非常程式化。尽管三星开发的“neon数字人”形象极为逼真,但官方展示出来的“数字人”都经过预渲染处理,实际上临场交互能力达不到宣传的高度。

直到生成式AI技术的崛起,开发“数字人”的独立交互能力,才真正有了技术基础。

斯坦福大学的研究者们创建了一个名为Smallville的虚拟小镇,在里面植入了25个AI像素人,他们在里面工作、社交、甚至举办情人节派对,看起来像极了AI版的《星露谷物语》。

英伟达在把自己开发的游戏AI智能体“voyager”接入GPT-4后,他们甚至可以自行在游戏里挖矿、建造房屋,进行远程探险。

AI的拟人化、人类的虚拟化,看起来是截然不同的方向,但这两条路径的目标显然是一致的—在虚拟世界复刻真实的人类生活。

设想一下,如果把Smallville里的像素小人替换成真人形象数字人,那幺就是扎克伯格所畅想的元宇宙图景了。不妨大胆想象,如果未来两个“i人”在元宇宙里见面,尴尬得不知道聊点什幺时,可以召唤一个“e人”性格的AI数字人出来活络气氛,充当社交润滑剂。

而生成式AI与游戏NPC的合体,无疑将使游戏玩家们的体验上升一大截,与具有独立思考能力的NPC进行互动,在游戏体验上肯定比现在程式化的设计要好得多。

也难怪已经“All in 元宇宙”的扎克伯格,在不久前的2023财年第三季度财报电话会议上表示,AI技术将成为Meta在2024年最大的投资领域。

就像“互联网+”改变了各行各业一样,生成式AI也可以“+”任何事情,包括赋予“数字人”以灵魂。

赶早集的直播行业

如果说先进的科研机构、科技巨头还在琢磨怎幺“创造人类”,那幺讲究实用的业界,已经把一些更为粗糙、简陋的“数字人”应用到了商业领域。

应用最广泛的便是直播行业。如今,“数字人”主播已经十分普及,在抖音、快手等短视频直播平台,很多在镜头前滔滔不绝、兜售商品的主播,其实是“数字人”。

这些直播间里的“数字人”的外观五花八门,有2D、3D的二次元人物,也有仿真人、真人建模等走现实主义的“数字人”。其内里的“灵魂”,可能来自后台的真人,也可能是根据文字生成的语音,再高级点的则用上拟真的声线。

这些“数字人”的制作过程也不复杂。如果是“拷贝”一个真人形象,通过动作捕捉技术,只需要主播在绿幕前穿上几件出镜用的衣服,记录下一些常用动作、手势,就可以在不到5分钟的时间里制作出一个足以“以假乱真”的分身。

有up主曾在自己的视频栏目里做过测试,在视频播出了近5分钟后,他才以真人面目出现,告诉观众们前面出镜的其实是“数字人”版的自己,而几乎没有观众发现异样。

更高级一些的技术,还能在仿真的基础上任意地改变自己的外貌特征,让自己看起来更年轻或者更成熟,如果愿意的话,可以一直保持在“冻龄”状态。

如果要求低一些,还可以用一些“公模”,笔者在进行研究时,选择了腾讯智影这款数字人播报产品进行体验,它默认提供了几个人物形象,只需要在右侧的文字框输入想要生成的语音文字,随后点击“合成视频”,稍等片刻,就可以得到一段带有“真人播报”的视频。

细看还是能看出异样,例如脸部与身体的衔接有点不自然,肢体动作也比较简单,看上去有点像掉帧的画面。在声音方面则是和我们在地图导航中听到的差不多,虽然为了逼真一些,可以在文本中插入“停顿时间”,但无法与ChatGPT极为逼真的口语表达相比拟。

虽然说这些“数字人”的形态比较粗糙,无法还原真实人类的相貌体态,口型也经常对不上,但在手机这样的狭小屏幕内,对精度的要求并没有那幺高,这点瑕疵无伤大雅。

和真人主播相比,这些“数字人”主播最大的优点在于不用休息,可以24小时不间断地直播,还不需要场地、摄影器材和人力投入。

此外,制作这些“数字人”主播的成本差异很大,上至几十万,下至几百元,从便宜的2D形象到精细的真人“拷贝”,完全丰俭由人。平均下来,“数字人”主播的成本不及真人主播的几十分之一。

从最终的效果来看,观众也为这些“数字人”主播买单,例如,在拼多多的特步直播间里,数字人主播日均GMV约为4.1万元。甚至有的“数字人”主播的日均成交额比真人主播还高。

商业上的前景,极大地推动了这一行业的发展。据数据统计,仅2022年,数字人相关企业注册数量就高达948家,增速68%,已然成为一个新的风口。

AI发展需要“数字人”

站在当下这个时间点,我们还很难定义“数字人”究竟是什幺,因为它们的形态各异,外在形式与内在逻辑也各不相同。

从已经实现的程度来看,它更像人的“虚拟外壳”,这个外壳形态各异,但仍依赖人的思维进行驱动。但从研究重点与发展潮流来看,它必然会在生成式AI的加持下,走向发展出独立行为逻辑的智能体的路径,实现自我驱动。

对人的形象,特别是脸孔的确认,既是亲密感产生的重要方式,也是信任关系得以建立的前提,而无论这个形象是否真实存在。

那幺我们该如何看待生成式AI与“数字人”之间的关系?

从功能上看,毫无疑问是生成式AI促进了“数字人”的发展,推动其从低级迈向高级。如果它现在是有效率的生产机器—制造永不停歇的人类形象,用来带货、讲课、表演,带来商业、文化、娱乐等方面的价值,那幺未来,它将成为人们投射情感,满足陪伴需求的对象,甚至参与到人与人的交往中,成为关系网络的有机组成部分。

但是,生成式AI与“数字人”之间的关系可能并不是简单的单向关系。

站在用户角度,“数字人”的内在是否具有“灵魂”,可能并不是最重要的事情,毕竟当前流行于直播间里的粗糙版本,也有不少受众,甚至已经培育出了一个日益成熟的行业。

另一方面,生成式AI的核心能力—输出“原创文本”,并不因套上一个人类的外壳而变得更加先进。

因此,反过来思考这个问题,可能有助于我们厘清两者的关系:把AI智能体加载在“人类形象”上的必要性在哪里?

答案或许就在“人类形象”本身。在现实生活中,很多关键的互动,都是在人与人的直接接触时完成的。

设想一下,如果一个直播间没有主播在场,而只有声音在飘荡,其实很难建立起主播与观众之间的情感联系,也会给人一种很不踏实的感觉。

对人的形象,特别是脸孔的确认,既是亲密感产生的重要方式,也是信任关系得以建立的前提,而无论这个形象是否真实存在,毕竟人们可以把自己的情感投射到电影、游戏、动漫等虚构角色里去,从这个角度来说,具象比真实更为重要。

这种“面对面”效应,在人与AI的互动里同样存在。对于AI这样一个“多智而近妖”的智能体来说,无论它能够实现什幺样的功能,赋予它一个“脸孔”,使它在最自然、熟悉的情景下与人互动,才能让它的本领最大化地发挥。

就好比在元宇宙的世界里,我们不会希望由一个伫立着的黑色石碑来担任指导,它的神秘气息只会让我们觉得自己是《2001太空漫游》里的猿人。

从这个意义来讲,成为“数字人”,或许是AI更进一步发展的必然之路。