袁京力

人工智能在文生视频领域取得新突破。北京时间2月16日,OpenAI发布文生视频模型Sora,该模型可根据简单提示词,生成长达1分钟的高清短视频,虽然仍处于面向测试者开放的状态,但较此前行业视频长度大幅提升,文生视频进入新阶段。

受此消息刺激,在2月19日开盘后,AI板块相关股票持续大涨,中文在线、易点天下、果麦文化、当虹科技、因赛集团、博汇科技、万兴科技、海天瑞声、丝路视觉等以20%幅度涨停,虹软科技、昆仑万维、拓尔思、恒新东方、东方国信、数码视讯、读客文化等大涨逾10%。CPO概念、算力股也随之走强,中际旭创、天孚通信、新易盛和联特科技均以20%幅度涨停,太辰光、德科立、罗博特科、光库科技、博创科技和曙光数创等均涨超10%。

下一个交易日,上述股票出现分化,仅有中文在线、当虹科技、因赛集团、罗博特科四只股票继续涨停。从行情看,此轮AI行情似乎难以复制2023年的AI行情。

在2022年年底,OpenAI发布ChatGPT,在短短3个月之内注册用户达到1亿人,超越了社交软件Tiktok历时9个月用户达到1亿的纪录,成为增速最快的消费级应用,引领AI迎来“奇点”时刻,其颠覆式的生成能力带来一场技术革命。与此相对应,A股从2023年年初也走出了波澜壮阔的AI行情,东方财富人工智能指数从700点上涨至近千点,涨幅最高一度接近50%。

Sora模型的问世使得ALGC在视频领域的应用得以大大拓宽,影响虽然不及2022年年底ChatGPT那幺显着,但其对文化传媒等领域的影响将变得更加清晰,而文生视频将大大提高视频的供给量,算力需求有望进一步爆发。

当然,在提供惊艳文生视频的同时,Sora也提供了一些翻车的案例,即便是惊艳的案例,细究之下,个别产品与真实世界也存在逻辑难以自洽的部分,有时其不足在于难以模拟现实世界中的物理规律,且对于事物发生的因果、时序和空间关系也理解不足,例如模型能够生成一个人咬一口饼干,但饼干可能没有咬痕;模型可能在某些视频中混淆左右,而且可能难以精确描述随着时间推移而发生的事件,例如跟踪特定的相机轨迹等,但不可否认其远超同行同类产品。

与Pika、Run、Runway等AI文生视频工具相比,Sora不仅具有完成视频向前扩展、视频拼接等更加复杂的任务的能力,还能通过多镜头等方式带来更加生动的多视角视频,同时在生成视频的时长、流畅度和逻辑性等方面优势显着。

国投证券认为,Sora生成的内容在视频尺寸和时长、多模拟的视频生成能力、灵活扩展和真实模拟能力等方面均实现了超越。

Sora能够制作各种尺寸的视频,从宽屏的1920×1080到竖屏的1080×1920,同时携有更好的构图效果,生成时间也从其他模型的4秒提升至最高的60秒;其次,除了文生视频外,Sora还能图生视频、视频生视频等,具备丰富的多模态视频生成能力;再次,Sora还能将视频沿时间线向前或向后扩展,Demo中的视频都是从一个视频片段开始,向时间线的过去延伸,尽管开头各自不同,但最终都会汇聚于同一个结尾;最后,Sora可以创造出带有动态视角变化的视频,让人物和场景元素在三维空间中的移动看起来十分自然。

Sora基于扩散模型,并且在其中使用了Transfoumer架构,将视频和图像分解为Patch小数据单元,这些Patch类似于GPT中的Token,用于在Transfoumer模型中进行训练和生成,同时OpenAI将DALL.E3引入到Sora里,使得Sora能够精准地还原用户的文本提示,生成高质量的长视频。

基于强大的GPT和DALL.E模型,Sora在训练过程中完成了文本和视频模态的“对齐”,从而能够理解提示中的词汇含义,并能够将其对应到视频中的事物上,大大提升了生成视频的准确性。

中泰证券认为,OpenAI采用的合成数据方式在大幅提升模型效果的同时,相似风格的文本prompt也能够提升Sora与GPT、DALL.E的联动效果,使得Sora更接近一个“全能”的多模态模型。

在下游应用端,文生视频的突破将对文字、影视及游戏等娱乐行业带来巨大的变化。

Sora模型推出带来视频内容供给领域生产力的跃升,传统视频制作往往需要投入大量人力、物力和时间成本,通过利用Sora模型,创作者可以快速、高效的生成视频,极大降低产出成本。另一方面,Sora的编辑和扩展能力为创作者的灵活提供了空间,将进一步提高内容产出的创新性和多样性。

当前,短视频时长集中在60秒以内,中视频时长介于60秒至30分钟以内,长视频包含30分钟及以上的所有视频。华福证券认为,Sora模型的内容产出较好适配短视频的核心时长,短期内看好短视频产能的迅速增长。

此外,IP版权公司积累的IP形态以文字、卡通人物形象等为主,文生视频模型可帮助此类公司迅速产出终端视频,业务范围将得到极大扩展,运营效率将发生极大跃升。考虑到Sora模型的可得性,文生视频的应用会最先在海外落地,Sora强大的视频生成能力将助力IP版权、出海广告营销等公司快速制作符合国际时长的视频内容,吸引海外用户,实现海外业务扩张并增厚业绩表现。

太平洋证券认为,AI多模态技术突破将降低文字、图片、音视频和游戏内容空间相互转化的门槛,提高AI工具辅助内容生产的比例,内容资产价值有望得到重估。

最低维的内容形式即文字类内容,且拥有内容数量多及质量高的公司弹性最大。文字作为最低维的内容升维空间最大,有望全面受益于内容资产价值重估,而网络文学的娱乐性足,因此其商业化空间最大;图片、音视频和游戏类资产也需要关注,图片类资产主要包含视觉内容和形象IP,音视频资产主要包含动漫、影视作品等。

华泰证券认为,“Sora+影视”预计能明显降低制作门槛及成本,且可以极大程度丰富影视的创造性及风格,Sora的出现将重塑影视行业,预计拥有核心导演或创意人才及IP资源的公司更受益;“Sora+营销”预计将提升广告相关视频的创造效率,提供灵感、增强广告吸引力,有望部分替代低创造性、可复制的视频内容,同时也能低成本、定制化、大批量快速生成视频内容,提升客户转换及留存率。

在AI内容生产工具上,生成高维内容资产的生产工具价值更高,视频工具在海外公司表现突出,国内公司亦有布局;音频工具方面个别大厂和中小公司也有涉足,游戏工具方面也有两家上市公司切入。

游戏是AIGC技术最复杂、应用前景最广阔的方向之一。据OpenAI的报告,Sora可进行游戏场景的生成,同时可以高保真的方式渲染环境,甚至模拟玩家操作游戏的情景。

华金证券认为,Sora的出现或将降低游戏CG、PV的制作成本,而低成本的视频内容有利于丰富游戏剧情的展现和表达。因此,成熟的文生视频技术整合或将为注重内容和交互的游戏作品更好地提质增效,为受众用户提供更好的情绪价值,从而提升用户体验,加速科技表现。

梳理AIGC产业链,主要划分为上游(数据、算力)、中游(算法、模型)、下游(应用)。

上游主要包含数据平台、提供数据和算力层、提供底层支持;中游为算法层,在原始数据的基础上进行模型的训练与再开发;下游为应用层,包含内容生产和分发量方面,应用场景丰富,包含出行、社交、办公、搜索、娱乐、居住、教育、生产、管理、金融和医疗等11个大场景、37个细分场景。不同的场景也存在不同的机会。

自GPT问世后,AI产业向AGI迈进的速度超出大家的预料,从2023年的LLM,到文生图,再到2024年的文生视频,AI大模型对真实世界的理解和模拟持续且快速提高。

国投证券认为,未来可以从三个维度进行布局:1.布局可以利用视频等算法打造创作工具的产业;2.布局算力相关企业,文生视频必然带来算力需求的进一步提升,服务器、IDC也值得关注;3.布局已经有产品落地的AI核心标的。

AI的快速发展对算力的需求呈现井喷的态势。全球算力规模超高速增长,IDC预测,全球AI计算时长规模将从2022年的195亿美元增长到2026年的346.6亿美元。美国头部科技股涨幅领跑全球市场,科技股表现抢眼,全球算力龙头英伟达公司迎来了有史以来最强劲的开局,股价在2023年上涨了240%,市值接近1.5万亿美元。

截至2024年1月28日的第四财季,英伟达的营收为221.03亿美元,同比增加265%;净利润为122.85亿美元,同比增长769%。2023财年全年,英伟达的营收为609.22亿美元,同比增长126%;净利润为297.6亿美元,同比增加581%。

国内来看,自2018年以来,美国通过多种制裁手段,严格限制中国高科技领域发展,美国还在2022年10月通过方案,进一步紧缩半导体产品对华出口,限制英伟达、AMD等公司向中国出售高算力人工智能芯片,但国内算力产业仍在快速发展。

国内通用计算龙头海光信息预计,2023年营收为56.8亿元至62.6亿元,比上年增加5.55亿元至11.34亿元,同比增加10.82%至22.14%;2023年归属母公司净利润为11.8亿元至13.2亿元,较上年增加3.76亿元至5.16亿元,同比增加46.85%至64.27%。

根据华西证券推算,Sora架构的训练与传统大语言模型(LLM)Transfoumer架构的训练算力需求存在近百倍的差距,算力需求有望持续呈现几何规模的倍增,同时在信创和AI的大背景下,国产算力有望大放异彩。

算力包含单体GPU的性能和群体数据中心的性能,算力的提升需要大宽带的支撑。

Sora 模型的问世使得ALGC在视频领域的应用得以大大拓宽,文生视频的突破将对文字、影视及游戏等娱乐行业带来巨大的变化,算力需求有望进一步爆发。

面向单体GPU,通信带宽越大,GPU之间的数据交换速度越快,模型也就更快地训练出来;面向数据中心,低延迟、高带宽以及可扩展性满足大规模计算和数据传输的需求,需要不断的升级架构、采取先进的协议以支持更大的接口带宽。

光模块也将充分受益Sora的问世。华金证券认为,模型应用端的爆发以及新型算力的涌现不仅将加速硬件尤其是网络端设备的升级更新,甚至会驱动LPO\CPO等新型光模块等网络设备的落地。

Sora采用了改良的DiT架构,算力消耗和DiT相仿,DiTs遵循Vision Transformers的设计原则,与传统的卷积网络相比,它能提供更强的灵活性。根据DiT架构论文原作者判断,Sora的参数量大约在30亿左右,因此更有利于Sora后续更好的灵活替代性。

从推理来看,Sora基于图片做长视频生成,再基于生成视频做拓展,其所需Token数量相较于文本及图片模型的推理,有望成数量级增长,中泰证券判断,推理算力需求将持续上升。此外,推理端Token增加、算力需求的增长也对显存及带宽提出更高要求,预计将拉升400G光通信技术在以太网中的应用,并有望推动800G乃至1.6T光通信技术的应用。

自2022年年底ChatGPT推出后,光模块需求增加,以中际旭创为代表的光模块龙头业绩爆发,据其业绩预告,2023年,中际旭创归属上市公司股东的净利润为20亿-23亿元,同比增加63.40%-87.91%。

公司表示,2023年以来,AI算力需求和相关资本开支的激增带动了800G等高速光模块的显着增长,并加速了高速光模块产品迭代步伐,报告期受益于800G等高端产品比重的显着增加及产品设计的不断优化,公司的产品收入、毛利率和净利润率进一步得到了稳步提升。