曽 骥 韩 巍 翁 芳

(浙江大学滨海产业技术研究院,天津300380)

1 应用背景

机房是信息管理、业务处理和通讯网络的数据中心,随着我国大数据、物联网和网络通信技术的高速发展,机房建设将不断上升。目前机房安全与运维管理主要通过人工巡检和在线软件诊断,人工介入巡检方式基本包括人工巡检、人工抄表、人工模拟故障法检测、人工核对传感器数值,并依据人机工程学的理论开展工作。在人机合作系统中,人类适合负责需要创新性、灵活性、开放性的工作,而机器适合于需要简单重复、高计算量、高精度的工作。人工巡检、人工抄表等大量简单重复的工作方式,并不是人机合作的最佳工作方式。因此,人工巡检方式虽然缓解了事件发现时间滞后、误报、漏报等问题,但也不可避免地引入了其他问题,例如人手不足、数据精度有限、可靠性不高、人员水平、责任心参差不齐等诸多不利因素。[1]

在线软件诊断存在检测覆盖范围小、响应慢和易干扰等问题,随着机房建设逐渐偏远化和社会老龄化的趋势,机房智能化安全管理和运维将成为必然趋势。本研究通过深度学习的巡检运维机器人系统和相关技术的示范应用,帮助传统IT 运维服务商向智能无人化运维服务发展, 同时推动智能移动机器人和视觉感知技术的发展及其相关产品的研发。

2 机房智能巡检机器人系统设计研究

2.1 智能巡检机器人本体设计

为适应机房机柜高度 (1.8-2m) 和标准机房通道宽度(0.9-1.2m) 的实际应用情况。机器人底盘采用双轮差速驱动,实现原定转弯,同时通过底盘防滑防抖悬架的设计,保障机器人在机房通道不平坦地面的稳定移动和执行巡检任务; 同时设置上方视觉检测模块的可升降设计, 满足机器人在近距离检测机柜内高低层次摆放服务器的检测视角高度可调; 机器人还设置动环传感器,实时感知机房环境内的动环信息。

2.2 智能巡检机器人核心算法开发

自主移动与作业控制算法:

首要任务完成机器人在机房环境下的自主移动功能,通过激光SLAM技术,即同时定位与地图构建(Simultaneous Localization And Mapping,简称SLAM),通常是指在机器人或者其他载体上,通过对各种传感器数据进行采集和计算, 生成对其自身位置姿态的定位和场景地图信息的系统。[2]SLAM技术对于机器人或其他智能体的行动和交互能力至为关键, 因为它代表了这种能力的基础:知道自己在哪里,知道周围环境如何,进而知道下一步该如何自主行动。

通过机器人本体前方安装2D 激光雷达实时快速呈扇形发射和接收的激光红外线采集的点云图, 来构建机房实时场景的地图,并保存到机器人本体和上传到后端服务器,同步在地图上通过数据处理优化激光雷达构建的离线地图, 并在巡检目标及目标地点进行标记, 最后通过自身IMU 及机器人本体尺寸及驱动方式来运算机器人运动模型, 使其在构建的离线地图上完成自主移动; 另外通过2D 激光雷达实时检测动态障碍物的功能,结合机器人运动控制学,实现遇障安全停障功能,包括在有条件的通道环境内进行自主规划新的绕障路线, 实现机器人自主规划路线能力。其次要完成机器人连续精准对机房服务器的设备扫描和信息采集,包括如下步骤:巡检机器人在待巡检区域内行走,获取离线数据信息,完成预作业;正式作业,巡检机器人从起始点出发到达离线最佳巡检点的过程中, 根据巡检机器人与待检机房服务器的动态位置关系, 实时调整巡检机器人上云台摄像机位姿, 通过摄像机锁定待检机房服务器不断拍照并识别;识别成功后,机器人向下一巡检点运动;若识别失败,则巡检机器人在离线最佳巡检点停驻识别。通过构建巡检机器人与待机房服务器的动态几何关系, 可使摄像机迅速锁定并识别待服务器, 提升了巡检机器人图像锁定及识别的效率和准确率。视觉检测算法开发:本文采用基于深度学习的端到端网口检测方法,如图3 所示,包括:(1)获取机房不同背景、不同机柜的交换机网口图像;(2)对交换机网口图像进行分类;标注每个图像,制作数据标签;(3)使用数据增强技术,制作交换机网口图像数据集;(4)训练深度网络YOLO v3 模型,保存模型结果。本文通过从智能巡检机器人摄像头获取网口图像, 通过算法处理得到图像中网口的位置和类别,进而做到现场实时部署,能够提高机房内交换机网口检测的准确率, 从而提高智能巡检机器人部署时的效率。

2.3 机房智能巡检机器人系统业务流程与功能

本文通过机房无人化、智能化巡检实际业务需求(一个数据中心机房需要 每2~3 h 进行一次粗略巡视,以覆盖整个机房的角度大体巡视机房设备。每4~6 h 就需要进行一次细 致巡视,巡视内容包含查抄所有表计、指示灯等读数和状态。[3]),设计规划机房智能巡检机器人业务流程和功能模块如下:

视觉感知功能:

移动巡检功能:

可视化资产管理功能:

3 机房智能巡检机器人系统应用前景

目前巡检运维机器人已在多个领域中有广泛应用,尤其国家电网始终是巡检机器人最大以及最早期的用户。早在1999 年,国家电网山东电力公司就投入使用了智能巡检机器人, 让电力工人告别在高温雨雪等恶劣天气中巡检的“折磨”,标志着电力巡检逐步迈入智能化时代。但除了变电站、高压线路等国家电网应用场景, 应用面更广的智能机房运维机器人也有很大的市场和应用前景。

机房智能运维服务器机器人虽然是个垂直的细分市场,但是其体量并没有想象的那幺小。以一个机房为例,要达到24 小时有人的状态,至少需要五个人,五班三倒。2015 年的数据显示,国家电网总共有500 个面积在100-400 平米的机房, 至少需要的人力是2500 人,这非常不现实。相比之下,用机器人替代人力进行巡检, 一个100-400 平米机房最多只需要一台高配两台低配机器人,“运一备二”,400-1000 平米的机房需要“运二备二”,即可实现24 小时实时巡检。市场容量来讲仅国家电网省级服务器机房共497 个,对机器人的需求在1500-2000 台,整体的市场容量可达10-20 亿。而随着能源互联网的发展以及能源数据的不断增加,机房运维机器人的市场容量必然会相应增加。

4 结论

智能巡检机器人的运用极大提升了机房巡检维护作业的效率和准确性, 本文上述机房智能巡检机器人系统及关键技术的研究,满足目前机房无人化、智能化巡检运维的需求,解决机房人工巡检运维效率低、成本高的问题,大幅提升机房巡检运维的效率和自动化、智能化水平;借助移动机器人、多模态感知、机器学习和深度学习等技术,极大推进机房巡检运维的产业升级。