史佳庆 宋瑞

7 月6 日,上海2023 世界人工智能大会达闼展位,人形机器人进行“千手观音”表演(王翔/ 摄)

7月8日下午,“伯奇杯”2023年佛山市数字化应用技术职业技能竞赛“人工智能训练师”赛项闭幕。经过初赛和决赛的角逐,60名选手从来自86家单位的245名选手中脱颖而出,赢得“人工智能训练师”职业工种的荣誉。

根据人工智能训练师国家职业技能标准(2021年版)的定义,人工智能训练师是指“使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员”。

“人工智能训练师的出现是人工智能快速发展的结果。”360集团AI产品经理葛灿辉接受《了望东方周刊》采访时表示,从早期给机器进行准确率评估、为机器准备学习样本、纠正机器错误,到将部分人类智慧、情感注入人工智能大模型,让机器理解人的指令,并对其进行价值观引导……人工智能训练师正在让机器越来越有人性。

老师教学生

在武汉光庭信息技术股份有限公司的办公楼里,一名人工智能训练师正在对自动驾驶特殊场景的图片进行标注,比如打伞的行人、非正常停放的机动车、带雨棚的电动车等。随后,训练师用特定的文字、数字等数据,将标记的图片结合,再用人工智能算法分析道路中影响车辆行驶的相关实体。

“通过对人工智能暂时识别不了的数据进行标注、回灌、反复‘喂养,人工智能的算法智商可有效提高。”该公司数据驱动研发实验室主任郝江波告诉《了望东方周刊》,人工智能训练师类似于教师,要把学生(人工智能)不会的题目找出来,告诉他准确的答案,然后不断去训练他。

2021 年10 月20 日,郝江波在上汽集团第四届汽车新四化技术高峰论坛讲解《数据驱动开发的思考与探索》

以自动驾驶中感知部分的人工智能为例,人工智能训练师需要了解感知识别的类型、给予模型充足的基础数据训练、检测模型在哪些场景下“看不清”,有针对性地搜集、标注好这些典型数据,给模型训练;与此同时,人工智能训练师还要研究智能化标注平台,让价值数据的挖掘和标注实施更为高效。

郝江波举了个例子:“比如,当高速道路上的刹车印记覆盖了白色车道线,车的横向控制就容易发生错误(即无法保持居中直行),车会往一侧偏离。在这种情况下,人工智能训练师就要对有刹车印记的车道线重新标注,让算法识别此类特殊场景,确保车辆安全行驶。”

除了自动驾驶领域,医疗领域也有了人工智能训练师。

“请问你是患者本人还是家属呢?现在哪里不舒服?”

“头疼。”

“请问头痛有多长时间了?”

“2周。”

“请问头痛的程度如何?”

“中度。”

……

电脑屏幕上,显示的是一段医生与病人之间的对话文本。

“这款人工智能产品名为‘左手医生,除了能把医患对话一键生成为病历,还可以为病人提供诊前信息采集、诊后疾病管理等服务。”北京左医科技有限公司产品研发负责人彭彧告诉《了望东方周刊》,这样看似简单的功能,背后都是人工智能训练师日复一日的训练。

激发潜能

葛灿辉从事人工智能训练相关工作已有10年,目前在360集团负责大模型的策略评估、产品规划以及应用等。

在他看来,与需要通过代码让计算机执行指令的软件工程师不同,人工智能训练师更侧重为计算机准备学习的语料、样本和示例,同时纠正计算机的错误。在此过程中,计算机需要自主学习完成指令。

“打个比方,软件工程师告诉计算机该怎幺做,计算机必须精准执行指令;而人工智能训练师则是创造条件让计算机自主学习该怎幺做,让其朝着目标自己学习改善。”葛灿辉认为,人工智能训练师不仅是训练模型,更重要的是激发模型的潜能。

今年5月,2023第七届世界智能大会在天津举办。在360集团的展台前,参观者输入“夏日旅游方案”,“360智脑”几秒钟就能列出多种旅游“思路”;追问“天气太热,推荐夏日旅游好去处”,系统还会“进一步思考”,推荐详细地点,重新优化之前给出的答复。

武汉光庭信息技术股份有限公司工作人员研发智能网联汽车智能化标注平台,对算法不断优化,保障无人驾驶车辆正常可用

“用户提问越精确,越能够得到贴近的回答。这离不开人工智能训练师在幕后大量的文本提取和提示词标注工作。”葛灿辉说,人工智能训练师有大量的对齐工作(对齐,指要求AI系统的目标和人类的价值观与利益一致),通过对指令输出结果进行标注和纠正,不断强化和监督机器学习。目前,该集团已经有上百个人工智能训练师。

据介绍,“360智脑”大模型基于提示词进行预测,而人工智能训练师的工作就是让机器以可以处理的方式学习人类指令,“了解”人类的思维方式和价值判断,再以人类可以接受和处理的方式输出。通过大量提示词,人工智能训练师要挖掘出大模型的隐藏知识,规范模型的输出,从而激发出大模型的隐藏知识。

葛灿辉称,随着生成式人工智能时代来临,大模型向百业千行渗透,增量需求不断释放,人工智能训练师的岗位需求会越来越大,未来发展前景非常广阔。

注入“人情味”

每次出门,付聪总会在耳朵上戴一个大“耳环”。

付聪是腾讯天籁实验室人工智能训练师,他戴的“耳环”其实是一个测试版的助听器——“耳环”里的声音各式各样,有呼呼的噪声,有尖锐刺耳的吵闹声……这些经过助听器放大后产生的噪声,是很多佩戴助听器的听障人士长期面临的困扰。

而付聪和他的团队正在尝试利用算法设计、通过人工智能技术“训练”数据模型,让助听器更加“智慧”地降低噪声,让听障人群听得清、听得懂、听得舒服。

“助听器数据模型很小,因此需要针对不同场景进行优化,很多场景充满挑战。”付聪解释说,比如,一个听障人士在餐厅吃饭,周围有很多人说话,他想跟对面的人聊天,四周声音特别嘈杂,作为一个听力正常的人都可能听不清楚,更何况一个有听力障碍的人?

“这就需要人工智能训练师把有用的声音提取出来,降低噪声。”他称,科技向善,离不开人情味。

人工智能训练师在对人工智能进行训练时,如何让人工智能更有“人情味”?在彭彧看来,至少可以从三方面着手。

“据测算,中国人工智能领域人才缺口高达500 万人。上海市2025年需求40 万,而目前本地高校相关专业在校生规模为4 万。” 在2023 世界人工智能大会人工智能人才专场高峰论坛上,复旦大学党委书记裘新给出一组数据,点明人工智能行业对人才的渴求。

首先,要加强人工智能对人类当前真实需求和情感表达,即上下文语境的理解能力。

其次,要加强人工智能回复时的人情味。以医疗场景为例,人工智能需要解答的不仅是患者的生理问题,还有心理上的诉求。

“当患者刚刚被诊断出糖尿病,应该如何沟通?”彭彧告诉《了望东方周刊》,作为一名医生,可能会考虑到三点:先缓解患者情绪,再出治疗方案,最后给出饮食和运动的建议。

“那幺,作为人工智能训练师,就需要参照真实的医生反应,构造一个相对优质的输出答案,通过上千条或者上万条输入输出的数据,让人工智能反复地训练、吸收、学习。”他说。

第三,要应用前沿的技术提升人工智能的能力。比如,左医自研的医疗垂类大语言模型“左医GPT”,通过大模型赋能医疗场景中的人工智能应用,不仅拓展了医疗智能产品的应用范围,亦在需要人机交互的场景中实现了更好的拟人化。

“在自动驾驶的场景中,富有‘人情味的人工智能则会根据特定驾驶人的行为做出学习。”郝江波称,比如,针对更为谨慎的司机,人工智能会给出更大的跟车处理,超越卡车时会有意避让等等,让驾驶人的驾乘和心理得到更好体验,感到陪伴自己驾驶的不是机器,而是“机器人”。

缺口500万人

人工智能产业欣欣向荣,离不开政策的支持引导。

近年来,中国发布了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》等多项政策文件,各地也相继出台有关措施,支持引导人工智能产业发展。

2020年2月25日,人工智能训练师作为新职业被纳入国家职业分类目录。2021年,人力资源和社会保障部发布该职业的国家职业技能标准。

中国电子信息产业发展研究院副总工程师安晖表示,我国人工智能技术的商业化应用,拥有其他国家难以企及的规模优势。目前,我国人工智能已广泛应用于城市管理、金融、零售等诸多领域。随着人工智能技术应用进程加快与程度加深,市场对人工智能人才的需求呈现井喷式增长。

“据测算,中国人工智能领域人才缺口高达500万人。上海市2025年需求40万,而目前本地高校相关专业在校生规模为4万。”在2023世界人工智能大会人工智能人才专场高峰论坛上,复旦大学党委书记裘新给出一组数据,点明人工智能行业对人才的渴求。

“智能化是社会发展的必然方向。长期来看,人工智能训练师可能会像软件开发工程师一样普遍。”安晖称,人工智能训练师这一职业形态,能够实现传统工种的技术提升,还能够支持远程办公、兼职办公等灵活的办公形式,这给了从业人员相对灵活的时间,吸引了部分人群对此职业的认可。

中国数实融合50人论坛智库专家、国研新经济研究院创始院长朱克力表示,人工智能训练师作为一项有着一定技术门槛和操作技能要求的新职业,会遇到一些发展中的问题,亟须用市场化法治化手段,因势利导顺势而为,厚植新职业发展沃土。

“作为一名人工智能训练师,最大的挑战在于如何收集到优质的数据集,除了可衡量评估标准外,还需要满足数据集的多样性;其次,就是对项目的评估标准,面向客户使用时必须是既有帮助又能保障安全的。”彭彧告诉《了望东方周刊》。

“在某些领域,人工智能的回答还不够深入;在涉及最新理念和实践方面,人工智能的回答还不够前沿;在生动化、拟人化的文字传递方面,人工智能的回答还不够灵活。”郝江波表示,这都是人工智能训练师要解决的问题。

“未来已来,我们唯有积极拥抱和适应人工智能对人类工作和生活带来的变革。”郝江波说。