张智祥 许凌锋 梁洁波

提 要:数据库技术是软件产业的“数字基座”。现阶段,基于国外开源社区授权后二次开发和购买国外商业数据库授权后再次包装上市的数据库占据了我国90%以上的数据库应用市场,其知识产权和核心技术属于国外原开源社区和原组织机构,具有极高的“代码断供”和“数据泄密”风险。因此,加快建设真正拥有完全知识产权和核心技术自主可控的数据库是构筑我国数据安全基石的当务之急。

关键词:数据库;自主可控;核心技术;数字基座;国家安全

一、自主可控数据库是保障国家安全的重要基石

(一)发展自主可控数据库有利于保障国家安全

数据库是国家重要信息资源的承载器,自主可控数据库能够保障军事、经济、社会、文化、科技等国家重大战略领域安全,保护国家机密不被泄露,完全避免“代码断供”风险。发展自主可控数据库,就是建好“中国人的数据粮仓”,让“中国人的数据库”主权牢牢掌握在自己手里。

(二)建设自主可控数据库能够夯实新型基础设施建设基座

新型基础设施包含5G基站、大数据中心、人工智能、工业互联网等领域,是以技术创新为驱动,以信息网络为基础,提供数字转型、智能升级、融合创新等服务的基础设施体系。数据库属于新型基础设施范畴,是大数据行业最重要基础设施之一。自主可控数据库在5G基站建设、大数据中心的应用不断迭代,响应速度、分析能力、存储容量扩展等均有了较大提升,对我国新基建起到了重要“奠基”作用。“十四五”以来,国家加大数字新型基础设施的建设力度,核心技术自主可控的数据库成为支撑新基建的重要底座。

(三)发展自主可控数据库有利于加快“数字中国”建设进程

“数字中国”建设以“打通数字基础设施大动脉”为重点,旨在抢占数字经济产业链的制高点。随着“数字中国”建设进程加快,数据库作为数据存储和计算的载体,成为了“数字中国”建设不可或缺的关键环节。在国产化替代的浪潮下,自主可控数据库成为推进“数字中国”建设的得力“助推器”,有利于我国数字经济健康可持续发展;它能够应用于金融、军工、电信、电力、交通、互联网等关系国计民生的重要领域,在这些领域承担“锚碇”和“护卫”作用,并能将数据主权牢牢掌控在本国内,不再担心关键领域技术被“卡脖子”。

(四)发展自主可控数据库有利于助推信创产业快速发展

信创产业是提升软硬件技术水平、完善信息安全管理、促进产业数字化转型的关键产业,是国家“十四五”建设的重要抓手。自主可控数据库是我国信创产业的重要组成部分,特别是自主可控数据库底层技术的提升与突破,对信创产业发展能起到积极的促进作用。一方面,自主可控数据库技术与国外数据库技术能够完全实现接轨,对不同领域产生的海量数据进行实时整合及管理,挖掘新价值,能够大幅提升我国信创产业发展的基础层级。另一方面,随着大数据、人工智能、物联网、5G等新技术的广泛应用,不同产业的数字化迁移速度加快,对数据库技术的要求也相应提高,能够提升自主可控数据库厂商的核心竞争力,这也将促进我国信创产业加快发展。

二、自主可控数据库需要精准界定

(一)为何需要精准定义自主可控数据库

在新发展格局下,数据库作为新型的数字基础设施,是我国数字经济发展的“发动机”,同芯片、操作系统一起并称为现代信息技术领域的三大核心基础。我国迈入全球数据库产业第一梯队,数据库容纳的海量数据和超强算力是数字经济发展不可或缺的重要资源。我国现役数据库中90%以上都是基于国外开源社区版本授权后二次开发或购买国外商业数据受限制源代码后再次包装的(根据赛迪顾问《“十四五”关键应用领域之数据库市场研究报告》资料内容整理),这些数据库虽然是由我国数据库公司二次开发并生产的,但是根据国际开源协议,其知识产权和核心技术都归国外开源社区和组织机构所有。当前市场存在一个误区,普遍认为开源就是自由下载源代码、免费使用。实际上开源并不等于免费,一旦国内数据库厂商封装国外开源数据库源代码转售获利,就必须取得国外开源组织授权并缴纳相关费用。开源软件还具有传染性,国内数据库产品在GPL 等开源协议的国外开源代码基础上进行二次开发的,就必须遵守开源协议进行开源,毫无秘密可保。因此这种开源特性决定了此类数据库的安全性、可靠性、持续性都无法得到完全保障。

(二)自主可控数据库的精准定义

依据国际惯例,对自主可控数据库,应该根据行业自身特点将其定义为:由中国公司组织或开发,拥有完全知识产权和自主可控核心技术,且能够满足中国用户需求的数据库。自主可控数据库的核心指标是完全知识产权和核心技术自主可控,这体现了数据库的安全性、自主性、可靠性、持续性。以科蓝数据库、达梦数据库等为代表的代码自研率超过98%以上的中国自主可控数据库就是此类代表。

(三)对自主可控数据库进行精准界定的现实意义

自主可控数据库的安全直接关乎我国的国家安全。自主可控数据库的安全性远高于开源社区授权的数据库,能够筑牢国家安全的底座,为我国科技、金融、信息、军事、民生等领域提供基础的软实力保障。国外开源社区授权的数据库在我国关键信息基础设施领域大规模应用可能会带来巨大的安全隐患,例如,我国科技、金融、信息、军事、民生领域的重要信息随时都有可能被不法分子篡改或损坏,国家机密数据亦有可能被窃取。以银行业为例,因为历史遗留问题,我国银行业 7×24 小时链接国际互联网的关键和一般类交易系统,大规模部署了底层封装美国甲骨文公司向全球公开源代码 Mysql 开源数据库内核的所谓“自研”国产数据库。这类数据库的关键技术和主导权完全掌握在美国商业公司手中,应用这类数据库最大的风险是被植入木马程序后,黑客可以轻易远程入侵系统抓取数据后再造成数据库宕库,进而瘫痪整个银行业的联网交易系统。近年来针对我国关键信息基础设施领域的网络安全事件频发,一旦针对 Mysql 等国外开源数据库安全漏洞的攻击行为发生,我们将会面临难以鉴别攻击者身份、数据泄露、系统停摆的不利局面,给银行业造成直接经济损失。

而我国的自主可控数据库经过20多年的研发探索和实践,在部分场景应用过程中,底层技术短板基本已经补齐,跟国外同类产品相比,安全可靠性甚至已经超越国外水平,因此,使用自主可控数据库可以最大限度避免“断供停服” “数据泄密”和“瘫痪系统”事件的发生,保障我国数据主权不受侵犯。自主可控数据库是最切合我国数据治理和规则要求的,产业数字化转型往往会涉及企业业务流程优化、创新模式重塑、组织机构变革等多个模块的全面转型,自主可控数据库能够在我国数据规则要求下,将数字化转型深度融入本地市场业务之中,能够较快适应本地企业实际的应用场景,根据本地企业需求生产出符合产业数字化转型与需求市场深度融合的有效数据库产品,这对我自主可控产业数字化转型发展非常有利。

三、自主可控数据库发展面临的主要问题

(一)国内真正拥有数据库知识产权和核心技术自主可控的数据库并不多

2022年9月,中共中央、国务院印发的《知识产权强国建设纲要(2021-2035年)》强调了知识产权重要性。按照数据库技术的知识产权归属,我国数据库可以分为三种:一是中国企业从零开始自主研发的数据库,研发难度大、开发周期长,数据库知识产权归该企业;二是基于国外开源社区开源代码的二次开发,技术相对简单,开发周期短,但知识产权归国外开源组织机构,该公司二次开发则面临底层源代码随时被“断供停服”和知识产权追诉的风险;三是中国公司购买国外数据库公司授权,拿来即用,但是这种授权本质是知识产权的限制性使用授权,数据库的知识产权仍然归国外数据库公司所有。当前,我国具有完全知识产权和核心技术自主可控的数据库少之又少,且在最重要的金融、通信、科技等领域的应用只占不到10%,在很多领域无法保障国家关键底层数据的安全。

(二)国产数据库领域政策导向需要与时俱进

国产数据库行业健康发展离不开政策引导。信创第一阶段国产数据库主要用来支撑党政领域非关键流程型信息化管理系统,信创第二阶段国产数据库需要支撑关键信息基础设施领域关键业务类核心业务系统,对于国产数据库产品安全、稳定、性能、功能等技术指标均有非常严苛的要求,国产化替代已经进入深水区。为了保证第二阶段顺利推进,相关政策导向调整尤为重要。

一款数据库的成熟需要长时间进行技术沉淀,国产数据库产品支撑关基系统,必须进行广泛的应用适配、场景测试、产品改进。客观地说,当前国产数据库与国外成熟商用数据库相比,在某些场景下还有一定的技术差距,现阶段以要求使用国外成熟商用数据库时制定的政策为标准要求国产数据库,会造成终端用户“想用不敢用”的局面,制约国产数据库行业发展,阻碍信创进程,因此相关政策应进行适度调整松绑。同样以银行业为例,应出台相关政策,允许国产化改造项目中小部分银行信息化系统,因国产数据库原因出现 bug 甚至是宕库,可以在一定限度内予以免责改进。只有政策松绑,银行科技部门才敢使用国产数据库产品,国产数据库厂商才能不断改进产品满足实际需求。信创各主管部门应统一认知,国产数据库替换过程中不可避免出现少许技术问题,只要能控制范围就可以被接受,与直接使用国外商用和开源数据库相比,前者是过渡时期临时性小问题,而后者则可能会引发系统性风险。

另外需要关注:信创第一阶段,各行业主管部门制定的政策明显倾向“开源”,开源软件的优势是源代码可见、接受度高、传播广,但也正因为开源软件源代码可见的特性,开源数据库完全没有任何秘密而言,应用在关基领域核心业务系统会给国家埋下重大安全隐患。行业主管部门相关政策应限制开源数据库的使用范围,明确不能应用在关基领域 7×24 小时联网的关键业务系统。

(三)缺乏高素质的数据库专业人才

数据库技术属于“高精尖”的小众领域,数据库研发涉及数据库理论、系统架构、硬件适配、工程流程优化等很多方面,专业技术壁垒高,更是需要高端化、复合型人才。目前核心架构数据库人才依然不足,掣肘了国内数据库技术的发展。我国本科高等教育计算机科学及相关专业都会开展数据库原理及应用的教学,但是数据库原理及应用不只包含理论,更有很强的实践性,需要结合实际应用来培养综合实践能力和知识运用能力,但是目前的学院教程无法满足实践要求,导致能够熟练掌握数据库技术的应用型人才少之又少。因此,只有产、学、研密切配合,才能培养出我国急需的高素质数据库专业人才。

(四)自主可控数据库的生态建设相对滞后

我国自主可控数据库市场占有率较低,发展空间受限。目前,我国数据库市场被甲骨文等国外公司把持,特别是金融和电信行业,国外数据库公司早已掌握了大量数据资源和核心用户,并形成了技术屏障。但是,随着我国数字经济的不断壮大,国产化替代的呼声此起彼伏,自主可控数据库市场规模也不断扩大,但仍主要集中在政务、民生、交通等非核心领域,与国际数据库巨头相比还有较大差距。另外,自主可控数据库缺乏完善的生态系统,发展的桎梏越来越明显,亟须突破与创新。特别是由于缺乏完善的生态系统,自主可控数据库成熟度无法得到验证,导致缺乏成熟的解决方案,数据库的安全性、稳定性、可靠性都无法经过长期验证。因此,如何建设自主可控数据库生态圈,为其提供技术赶超的有效平台,是目前急需解决的主要问题。

(五)自主可控数据库标准体系建设急需推进

建设数据库标准体系能够规范数据口径,实现数据跨系统敏捷交互,指导数据库质量管理、数据库安全管理,引导企业运营与决策稳步推进。迄今,《数据库服务能力成熟度模型》(T/CCSA 418-2022)、《键值型数据库系统技术及节能要求》《分布式数据库技术金融应用检测指南》(T/BFIA 009—2022)等数据库团体标准相继发布。《大数据分布式分析型数据库技术要求与测试方法》(YD/T 3774-2020)、《大数据分布式事务数据库技术要求与测试方法》(YD/T 3775-2020)、《信息安全技术数据库管理系统安全技术要求》(GB/ T20273-2006)等数据库行业标准和国家标准也已经发布。但是这些相继发布的30多个标准主要局限于数据库技术领域,并不能涵盖数据库标准体系的产品应用与服务等方面,特别是相关国家标准还比较欠缺。

四、自主可控数据库典型案例

(一)科蓝SUNDB数据库

北京科蓝软件系统股份有限公司成立于1999年,是中国领军的金融数字化咨询及解决方案服务商,中国自主研发分布式数据库的先行者。在信息技术应用创新领域,科蓝软件推出中国原创自主创新品牌数据库SUNDB。SUNDB数据库致力于消除国家关键信息基础设施领域安全隐患,框架及内核完全自研,从源头和底层彻底解决关键技术问题,充分保证知识产权完全自主可控,能够支撑政府、金融、电信、军工、电力、能源、交通、互联网等多行业关键核心业务系统信创自主可控化升级。2022年,SUNDB位居《2022中国数据库产业排行榜》第四。2023年,SUNDB入选中国数据库产业图谱,获得金融信创银奖。

(二)达梦数据库

达梦数据库是我国从零开始自主研发的代表厂商,是国内数据库基础软件产业发展的重要推动者。达梦数据库坚持原始创新独立研发的技术路线,已掌握数据管理与数据分析领域的核心前沿技术,拥有主要产品全部核心源代码的自主知识产权,先后完成并获得数十项国家级或省部级科研开发项目和奖项。

五、发展自主可控数据库的政策建议

(一)对真正具有自主知识产权和核心技术自主可控的数据库提供一揽子政策支持

明确自主可控数据库知识产权的战略地位,充分发挥自主可控数据库经济价值、科技价值、安全价值、技术价值、市场价值,保障自主可控数据库在关键领域坚持自主发展,实现核心技术安全可控。一是加大对真正具有自主知识产权和核心技术自主可控的数据库企业的税收优惠力度,考虑对其研发费用、增值税等税收给予优惠减免,减轻企业研发的经济负担。支持自主可控数据库重点企业与研发机构合作加强理论系统研究、开发新产品。二是对真正具有自主知识产权和核心技术自主可控的数据库企业实行人才支持政策,为其提供人才培训服务,鼓励其与高等院校、科研院所合作培养专业的数据库研发和应用人才,加强人才激励机制创新。三是对真正具有自主知识产权的数据库企业提供政策性专项贷款,为其提供用于专项创新研发的资金贷款,获得低息或免息优惠,以便购买关键设备、引进核心人才等。四是在落实信创政策方面,鼓励前沿数据库科技创新,推动数据库市场规范商业化宣传。

(二)规范开源数据库生态建设,开发多层次的自主可控数据库应用场景

以知识产权、核心技术自主可控为基准,加快构建自主可控数据库的产业生态,形成技术成熟、产品完善的自主可控数据库产品,开发多层次的自主可控数据库应用生态。一是从实用性角度考虑,加快建立一套科学可行的安全审查机制,对开源数据库及相关软件进行安全性、合规性审查评定和监管。二是加大自主可控数据库技术研发,支持和鼓励自主可控数据库企业研发成果市场化,促进高水平的数据库技术转移服务,支持自主可控数据库企业将研发成果转化为市场产品并加快商品化转化,推动实现经济效益。二是鼓励自主可控数据库企业将研发成果共享,支持企业开放研发成果,加快建设我国自己的开源社区,推动自主可控数据库企业将数据库成果转化为社会效益和市场收益。三是鼓励金融、电信、电力等关系国计民生领域的国有企业、政府机关、龙头民企加快自主可控数据库的替代步伐,同时,逐步推动商业数据库开展自主可控数据库平行迁移,实现自主可控数据库的应用扩容。

(三)加快构建由国家标准、行业标准及团体标准构成的自主可控数据库标准体系

我国亟须建立符合国情的数据库国家标准、行业标准、团体标准。第一,从金融、电信等重点领域入手,拓展到政务服务、社会事业等各领域,科学有序地推动构建高质量的标准体系架构,打造目标清晰、架构完整的数据库标准体系框架。第二,完善现有标准,扩大标准覆盖范围,力争形成一批影响大、应用广的数据库技术标准、数据库应用标准和数据库服务标准,形成覆盖广泛、层次分明的标准体系。第三,坚持目标导向和系统导向,提高标准质量和数量,积极发起和参与国家标准制定,加快开展行业标准提质行动、团体标准培优行动,推进标准与市场需求有机协同,推动标准落地实施,促进行业自律。

(四)加大高校、科研机构、企业对数据库相关人才培养力度

提高高等院校、科研院所、重点企业对数据库专业人才培养的重视程度,完善人才培养的课程设置、科研探索、实训安排,加强与国外先进数据库企业的深入交流。一是提高数据库企业对数据库相关人才培养的重视程度,积极开展数据库相关人才技能培训,做好人才规划,为数据库相关人才提供成长空间,完善其职业发展道路。二是完善数据库相关人才评价与激励机制,建立健全与数据库相关人才发展阶段相匹配的人才评价体系,持续激发数据库相关人才的创新活力。三是加强企业与高校的交流与合作,推动高校完善数据库相关人才培养方式,持续加强数字技术相关学科建设,鼓励高校提供更多的交叉学科培养平台,培养更多满足企业需求的高端复合型数据库相关专业人才。

参考文献

[1]孙茹茹:《新基建赋能现代文化产业高质量发展》,《中国发展观察》,2022年12月。

[2]肖丽琼、程莹:《四十余年坚持做中国人自己的数据库》,《中国中小企业》,2023年3月。

[3]张占斌:《以高质量发展推进中国式现代化》,《理论视野》,2022年11月。

[4]刘弘胤:《新基建背景下安防应用场景发展及市场机遇研究》,《中国安防》,2022年9月。

[5]林永生:《中国经济高质量发展面临的新挑战与新任务》,《国家治理》,2023年1月。

[6]吕鹏:《作为数据的劳动:网络主播的数字劳动及其治理研究》,《社会科学》, 2023年1月。

(张智祥,全国科技振兴城市经济研究会副秘书长兼科技金融专业委员会主任;许凌锋,大同云时代技术有限公司董事长;梁洁波,全国科技振兴城市经济研究会科技金融专业委员会副主任)