万宏蕾

7月8日,上海2023 世界人工智能大会,达观数据曹植大语言模型

2023年3月,硅谷创业公司OPEN AI推出的新型AI聊天机器人工具ChatGPT 3.5展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT月活跃用户就达一亿,成为史上用户增速最快的消费应用。

这之后,阿里云“通义千问”大模型、昆仑万维“天工”大模型、商汤科技“日日新”、“360智脑”、百度“文心一言”……类ChatGPT产品相继浮出水面。越来越多的国内企业入局其中,大模型之战悄然打响。

2023年7月,上海企业达观数据发布了国内首个垂直行业专用的自主可控的GPT大语言模型——“曹植”。据悉,“曹植”可准确完成多类型、复杂结构的长文本写作。

“ChatGPT带来了人工智能技术和应用的新一轮发展热潮,虽然它离通用人工智能的距离还很遥远,但我们要充分认识到借助人工智能技术进行分析、理解、生成的道路是正确的。这对于中国乃至全球人工智能企业而言,既是机遇也是挑战。”中国信通院云计算与大数据研究所所长何宝宏说。

“目前我们谈论的都是大模型本身,但我觉得明年、后年大家会开始谈论模型用在哪里、解决什幺问题,是什幺样的产品形态等。”达观数据董事长兼CEO、复旦大学校外研究生导师陈运文告诉《了望东方周刊》,“目前的市场确实很热,但整体来说,中国市场才刚开始。”

在人工智能三大应用领域中,图像识别和语音识别均属于“感知技术”,而属于“认知技术”(理解复杂语义并进行高精准度处理)的文本理解,是AI技术发展的关键所在。

机会巨大

在人工智能三大应用领域中,图像识别和语音识别均属于“感知技术”,而属于“认知技术”(理解复杂语义并进行高精准度处理)的文本理解,是AI技术发展的关键所在。

“让机器读懂人的意思,这是人工智能技术得以实际应用最重要的也是最难的一环。”陈运文说。他曾在盛大、腾讯、百度担任技术研发和管理职位,长期从事文本挖掘相关工作。

“企业每天都产生大量文档,需要配备大量人力对文档进行归类、整理和分析。对互联网企业来说,内部文字资料的处理和应用已经发挥了很大价值但没有实现价值最大化;而传统企业,很多还停留在用人力做重复性高、技术含量低的文字处理工作,人工智能技术应用极其原始。”陈运文说,“现在越来越多的企业将信息化纳入议程,很多企业内部数据丰富,但没有很好的方法去挖掘,可谓守着金山要饭。”

通过运用文本挖掘技术能够帮助企业提升运营效率,就是达观数据看中的风口。

2015年,达观数据在上海成立,2016年便获得真格基金领投,众米资本和掌门科技跟投的1000万元天使轮融资,成为一家为企业提供各类场景智能文本机器人的国家高新技术企业。

“实际上,在ChatGPT火起来之前,达观数据已经进入大模型赛道。2018年,OpenAI发布了第一代ChatGPT技术。当时除了学术圈,社会大众少有关注。2020年6月GPT3发布,我们当时也使用了GPT3系统。坦率说,当时的系统效果并不好。”陈运文回忆说,“到了2022年11月底,ChatGPT3.5正式发布,我们使用后发现这和3.0有天壤之别,是巨大的飞跃。我们意识到,这会是一个划时代的技术,或许会撬动整个社会与行业的变革。”

“以前客户提出了很多应用场景,但因技术条件有限,很难达到客户满意的、能够自然流畅使用的水平;现在有了大语言模型,针对以前客户很需要又很难实现的应用场景,我们用新模型都能搞定,效果甚至超出客户预期。与此同时,ChatGPT对中国用户并不友好。达观数据敏锐地发现这是一个巨大的机会,国内各行业都需要自主可控的模型,为中国客户提供专属服务。”陈运文说。

“七步成诗”

“在下定决心做国产GPT之前,公司开会讨论了好几天,设想能做成什幺样,同时计算投入和产出。初步盘算,光硬件就要投入几千万元,还要找算力平台。”达观数据技术总监韩伟告诉《了望东方周刊》,“2022年底,当国内很多公司还没有在意,只觉得ChatGPT是个聊天软件时,达观数据就作出了全力投入自主研发大模型的决定。”

总共有将近200人的工程师团队参与研发“曹植”国产大模型,分成不同的工程小组,各自承担数据采集、研发、训练等不同任务。为了取系统名字,公司内部征名,出了98个方案。“如果取类似GPT这样的英文单词缩写,感觉跟中国人的关联度不够。考虑到我们系统擅长的长文本写作,‘七步成诗的曹植形象非常符合,且这一商标在计算机软件领域还没有过。”陈运文说,“曹植的《洛神赋》是古代文学作品里的长文本,而做文档资料智能化的分析写作工作也是‘曹植大模型的专长。”

“长文本处理领域,我们走在行业前列,所以一路都是‘黑夜独行。”陈运文说,大模型优异的效果隐藏在诸多技术细节里,但海外同行没有公布GPT训练过程的工程细节和参数方法这类核心要素,为了给团队更多知识补给,达观数据向复旦大学计算机科学技术学院的教授们请教,读了许多业界顶尖论文和技术报告。每周技术团队都在反复讨论技术方案,开展各种交流研讨,逐字逐句探究核心指南。

达观技术团队探讨曹植大语言模型

除了作为人工智能基础设施的算力平台,大模型训练还需要巨大规模的数据。达观数据投入了大量精力来积累和提炼文本数据,源源不断地投入模型训练。

“训练数据规模比一所大学图书馆所有藏书量都要大得多。硬件试验设备也得跟上,一套方案就要200万元。”陈运文说。

“GPU不是买回来就能用,需要以软件形式组网,每个节点是个GPU,最终形成庞大的算力网络。”韩伟解释,“从2023年1月开始,团队调研、采购、组网,不断打磨,模型的训练开始循序渐进,先训练小的模型,再到中、大、超大规模的模型。”

“回过头来看,由于当时前瞻性的布局,下手早,大模型热出现后,现在市场上对相关芯片的需求已经一哄而上,不仅供货周期非常长,价格还上涨了近50%。”陈运文说。

“当‘曹植第一版出来时,正是晚上八九点,大家让模型跑起来,全部测试结束到了半夜12点,当所有测试集测试效果达到预期,埋头熬了4个月的团队欢呼雀跃。”韩伟说。

“第二天,研发成功的第一个版本GPT模型马上和公司内部钉钉系统对接,验证系统能力。内测时为了区分不断刷新的各种版本,我们把曹氏家族名字都取了一遍。”陈运文说。

2023年3月,在由中国人工智能学会主办,达观数据携手中国人工智能学会自然语言理解专委会、真格基金共同承办,中国信通院云计算与大数据研究所支持的“ChatGPT及大模型专题研讨会”上,达观数据正式对外宣布研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型。

“在‘国产ChatGPT和大模型的发展上,自然语言处理这一方向比起其他方向,中国企业与海外先进企业的差距要小很多。”在一场围绕ChatGPT和大规模语言模型发展应用专题研讨会上,与会专家这样认为,ChatGPT带动了自然语言处理整体上下游以及芯片的思考和发展,某种程度上大模型可能将成为下一代的基础设施,而中国需要有自己的基础模型体系,来保证安全性、并发性和稳定性。

“曹植”也是国内大规模语言模型中首批可落地的产业应用级模型。“在3月份外界刚刚意识到大模型热时,达观数据已经领先半个身位。”陈运文说。

所有客户都关心私有数据会不会被大模型泄露出去,如果公用一个通用大模型的话,确实存在数据被模型学习后再被他人利用的隐患。

目前 ChatGPT、“文心一言”等通用大模型已经被大众所熟知,这类大模型在用户广泛认知方面具有极大优势,但是在垂直领域,这种建立在公有云上的大模型让客户有数据安全方面的担忧。尤其是现在ChatGPT 频繁被爆出负面信息后,数据安全更加引起用户的重视。

“所有客户都关心私有数据会不会被大模型泄露出去,如果公用一个通用大模型的话,确实存在数据被模型学习后再被他人利用的隐患。”陈运文说,“与通用大模型相比,垂直领域专用大模型参数少,训练成本和使用成本都更具竞争力;与公有部署相比,私有部署的模式在数据安全方面更具优势,也更适合中国电信、各大银行这样的垂直行业。”

再加上,每个企业都有内部工作规范和规章制度,垂直领域的大模型可以适应每个公司独特的工作要求去完成文本审核、写作、分析等工作,而通用模型无法做到。

“达观数据的定位就是专注于做垂直领域专而精的大模型,虽然只局限在某个领域,但它可以挖得更深,解决任务效果更好,参数规模相对来说可以缩小一个数量级,对客户来说成本可控,更具性价比,让客户‘玩得起、玩得转。”陈运文说,“大模型应用的性价比是很重要的考量,因为不可能每个客户都投几个亿去建一个集群来做模型训练。比如,我们用一些轻量的显卡去跑这种大模型,通用大模型的话要100张英伟达A100卡能跑的数据,垂直领域专用大模型用一张卡就能跑出同样的性能。”陈运文说,“这就是‘曹植的商业价值。”

如何落地

“大模型要管用、好用,必须能解决行业里真正的痛点、难点。如果大家都做一个泛泛的通用大模型,产品的同质化会非常严重。”陈运文说,“未来在企业的落地形态,一定是大模型和多个垂直行业小模型的组合。”

具体到“曹植”等大模型的落地,从理论到应用有很多困难要克服,而语义分析又是其中挑战特别大的方向。“语义是人类智慧的高度抽象和浓缩,让计算机去理解文字语义需要日积月累、精益求精的技术升级优化。而中文的语法比英文更灵活更复杂,让计算机去做中文领域的阅读理解,更加困难重重。”陈运文说。

“文档智能审阅系统是一个全新的系统,以前没有过。我们逐渐接触了一些政府和大企业客户,他们对人工智能的态度是又爱又怕。作为开拓者,我们需要告诉客户,技术已经能够代替人来进行文档资料的阅读理解和后续处理,让客户明白这个全新系统有什幺用、怎幺用、可以做到什幺程度。”陈运文说,“这个过程需要耐得住寂寞,扎扎实实地把技术做好,让市场慢慢地成长起来。”

目前,达观数据已经在科技、金融、视频、电商、媒体行业落地应用。另外,上海市全力推行“一网通办”,在处理大量行政审批文本、缩短行政审批时间方面,达观数据也已经展开与政府机构广泛的战略合作。

“与培育市场相比,我们面临的更大困难是高质量文字资料数据的稀缺与大模型工程人才的稀缺。”韩伟说,“我们希望培养一批优秀的工程人才,既有学术底蕴,能看懂论文、了解新技术,也能动手实践,摸索出具体的大模型参数、训练步骤、推理方案。”

“未来如果大模型真正发挥作用,一定不会只是一问一答的形式。就像电出现后,1879年出现最多的是电灯泡公司,但是电能的应用绝不止电灯泡一种形式。我们不做灯泡,我们要做洗衣机、做电冰箱,要去想象其他能满足应用场景的产品形态。大家要对未来人工智能渗透在各个行业做好准备。”陈运文说。

“我预测2023年底之前,国内第一批大模型的商业化会陆续产生,大规模的商业化落地应用,可能要到2024年、2025年全面开花。整个产业链,从底层算力、硬件到应用层,对国内企业来说都充满机遇。”陈运文说。

注释:大模型是指具有巨量参数数量的人工神经网络模型,主要用于解决复杂的自然语言处理、语音识别等任务。大模型是ChatGPT 及其同类产品的底层基础设施。