陈玉玲 龙洋洋 贵州大学 公共大数据国家重点实验室 计算机科学与技术学院 姜军志 贵州大学 计算机科学与技术学院

在非物质文化遗产的理念被提出后,各国都开始重视本国的非物质文化遗产保护。在联合国公布的人类非物质文化遗产名录中,中国的非物质文化遗产资源丰富,远超其他国家。据调查,我国拥有非物质文化遗产项目多达87 万项,国家图书馆累积全文影像保护已达1.1 亿万页,音频数字转换的音乐超过50 万首,戏剧种类300 余项、昆曲、古琴等30 余项。另外,国家图书馆主动担当面临无法永久保存老电影档案以及影像资料遗产修复工作,做抢救性数字化修复1600 多部。

我国传统的非物质文化遗产保护方法包括手工记录、拍照等,书本、照片等很难长时间存放。在数字技术在不断发展的时代,传统的手工保护方法耗时耗力,难以对非物质文化遗产资源进行有效的保护。数字化技术的出现为非物质文化遗产的保护、管理与传承提供了新的方式。因此,结合数字化技术,将非物质文化遗产进行数字化、可视化,是十分必要的。

非物质文化遗产可视化平台主要运用于无人监管的情况下,通过对网络上的非遗数据进行爬取,在对数据处理后,更新非遗的信息,为非遗保护人员提供便捷的管理。同时,非遗传承人也可以通过此平台来发布相关的非物质文化遗产。近年来我国政府和社会为有效的保护非物质文化遗产投入了很多精力,各省份都开始建立和完善具有地方特色的非物质文化遗产档案与数据库,如“数字敦煌”,“数字故宫”,“上海非物质文化遗产网”,“浙江省非物质文化遗产网”等。但在非物质文化遗产数据库的建设过程中仍然存在很多问题:①我国的非物质文化遗产数目繁多,难以百分百的覆盖所有资源。据资料显示,我国的公共图书馆数据库中非物质文化遗产数据资料只占总体数据库资料的百分之六。②非物质文化遗产的保护,需要政府与全民的参与。因此,针对文化遗产建立专题数据库,通过数字化技术整理非遗信息、使用网络展示的方式来对其进行传播与交流是必不可少的。

针对贵阳市非物质文化遗产的保护,本文结合大数据可视化技术,提出一个建设贵阳非物质文化遗产可视化平台的架构方案,来帮助贵阳非遗保护工作者开展工作,健全贵阳市非物质文化遗产管理体制,并对贵阳非物质文化遗产进行保护。

一、方案设计

贵阳市非物质文化遗产可视化平台可以基于云计算、大数据等先进技术进行建设,主要目的是实现非遗信息的数据可视化和科学管理化。本文采用组件化建设的模式为贵阳市非物质文化遗产可视化平台提供统一标准化环境下的组件化建设支撑,实现实战需求的快速开发响应、应用快速部署。方案的架构分为应用服务层、服务支撑层以及基础层三个部分。

应用服务层:该层主要为贵阳非遗可视化平台用户提供应用服务,提供统一的登录门户来辅助非遗保护工作者实现非遗的科学化管理。用户登录后可根据应用导航,对非遗信息查询、展示、更新等功能。

服务支持层:借助基础层的帮助,提供数据管理、数据共享、数据分析、数据调度、数据监控等服务,实现非遗相关数据的统一管理,并对各类数据合理衔接、高效利用。

基础层:基础层是实现非遗可视化平台的保障,基础层将硬件资源、存储资源、网络资源等进行整合,形成可按需求动态扩展的高性能计算环境和大容量存储环境以满足海量非遗数据存储。

贵阳非物质文化遗产可视化平台体系架构中,涉及到数据交换整合、资源管理、运行维护、应用服务等各个层面。在各个层面中,可以把功能相似的聚集在一起形成模块,利用组件化开发原理将最基本、可重用的代码封装成组件为模块提供服务。坚持各个功能模块以组件化方式进行开发的原则,并基于服务总线实现功能模块间的无障碍通讯,将各个模块之间的依赖和影响降至最低。同时,采用可扩展性的技术体系架构,满足平台应用功能完善升级和灵活扩展的需要。根据数据类型、数据规模、应用方式的不同,采用多种数据存储和数据库管理技术混合应用的方式进行数据资源存储管理体系建设,搭建档案库、关系库、专题库、日志库等核心数据库。在数据库管理方面,采用关系型数据库、分布式列式数据库混搭的管理方式。关系型数据库主要存放基础数据以及面向业务服务支撑的各类数据集,用于实现数据标准化处理、质量监控管理以及数据量较小、实时性要求高的数据分析处理工作;列式数据库主要用于需要进行大规模计算处理的海量数据的存放,利用其支持分布式存储和并行计算的特性支撑海量数据的查询、统计和分析处理等工作。

在数据存储方式方面,采用集中式存储和分布式存储共同应用的方式。其中,关系型数据库一般采用集中式存储方式,列式数据库一般采用分布式存储方式,非结构化数据优先存放在分布式存储文件系统中;采用数据仓库技术(Extract-Transform-Load:ETL)等主流的数据集成系统工具(Kettle),对大量分散异构的资源进行分类抽取、清洗、转换,从各个数据源抽取数据,装载到基础数据资源库中,实现数据汇聚集成;采用分布式并行计算处理技术实现海量数据的存储管理和分析处理。平台依托分布式并行计算框架(如Hadoop),采用分布式文件系统和分布式数据库(如HDFS、Hbase)实现数据存储与管理,使用交互式SQL 大数据查询工具实现数据快速查询,并使用适合大规模数据集并行运算的技术模型(如Map/Reduce)满足各种分析应用的开发需要。

平台采用关系型数据库和分布式数据存储混搭架构,不同数据类型将分开存储。对于高价值的整合资料采用关系数据库技术;对于内容识别、批量计算、数据挖掘类的海量数据计算,采用Hadoop 生态体系技术实现,包括MAP/REDUCE、HBase、HIVE、Impala 等;对于实时性要求很高的数据处理将采用Spark Streaming流式计算引擎技术实现;数据导入和抽取采用kafka、kettle 技术,实现把海量数据高效的输送到各类型数据库中;资源调度基于Zookeeper 等技术,为数据服务平台的各类应用程序进行资源管理和调度。

贵阳非物质文化遗产可视化平台,是一个面向贵阳市非物质文化遗产保护工作者以及其他非遗爱好者的可视化平台。非遗保护工作者可以通过此平台监控非遗信息,并且分析非遗信息的变化情况。普通用户也可以通过此平台查询和新增相关的非物质文化遗产信息。

二、总结

本文介绍了研究背景、研究现状以及非遗未来的发展趋势,确定了本课题的研究意义和目的,通过建立贵阳市非物质文化遗产可视化平台来实现对非物质文化遗产的实时监控和保护。本文结合大数据可视化相关技术,对贵阳市非物质文化遗产可视化平台进行了架构设计,分析了平台实现的关键技术与功能,并将功能进行了模块划分。