正版化软件专区

国产数据库——发展、类别和品牌

发布时间:2022-08-24    点击:

当前,国内数据库产业呈现出百花争鸣、百花齐放的大繁荣大发展的局面,下面通过国产数据库的发展、类别、品牌来简单介绍国产数据库。

1. 国产数据库的发展

从种子萌芽到百花齐放,国产数据库的发展经历了从探索期到萌芽期、成长期,最后到发展期的过程。

具体表现以下四个发展阶段:

第一阶段为探索期(1978-1988),其主要包括理论探索与原型研究。也就是改革开放初期,萨师煊教授和王珊教授推开了中国数据库领域的大门,培养了中国数据库的第一代人才。正是初期这些高校及科研机构的自发探索为后续国产数据库的发展埋下了一颗种子。

第二阶段萌芽期(1989-2000),其主要包括原型研发与产品开发。此时Oracle席卷中国,占据了中国很大的市场,但是为了国产数据库的发展,国家863计划设立了“数据库重大专项”、“973”等计划,为高校的数据库研究提供经费支持。中国高校以及科研机构进行了原型研发与产品开发,从而也有了第一代原型数据库,比如东软的Openbase、中软的Cobase和华科的DMDatabase。

第三阶段成长期(2001-2012),其主要包括产品研发与应用示范。此阶段国家“十一五”规划发布,称要以信息化带动工业化,以及2008年国产数据库参加“核高基”重大科研专项。有了国家政策的扶持与吸引,达梦数据库、人大金仓、南大通用和航天神舟等公司开始发展。2008年阿里喊出了“去IOE”的口号,2010年后的云计算时代和开源社区兴起,国产数据库开始了弯道超车,国产数据库领域才真正进入到了茁壮成长、蓬勃发展的时代。

第四阶段是发展期(2013--),其主要包括技术爆炸以及市场运作。在大数据与互联网等的发展推动下,现有数据库技术无法满足国内企业应用场景的规模和性能等需求,国内技术人员对数据库内核相关技术掌握越来越深入和全面,市场化竞争越来越剧烈,一批新兴国产数据库厂家开始涌现。一些云计算厂商以及部分数据库厂商,也基于MySQL、PostgreSQL等开源数据库做了一些改造。目前中国数据库行业进入百花齐放、百家争鸣的阶段,截至目前国产数据库的厂商数量已经超过200家。

图1国产数据库发展阶段

2. 国产数据库类别

国产数据的分类形式也多种多样,这里以墨天轮对国产数据库进行分类统计时所使用的分类方法作为参考,将国产数据库分为了关系型、非关系型、混合型及其他。

图2 国产数据库分类

2.1关系型数据库(SQL)

关系型数据库的基础是关系数据模型,由关系数据集、完整性约束规则和关系运算三部分构成。通常情况下,关系数据集用多个表格作为数据结构来表示。用户可以定义表之间的关联。表中的列可以进行连接、并、交、差等关系代数运算。

按业务负载特征进行分类,关系型数据库可分为交易型数据库(OLTP)、分析型数据库(OLAP)和混合负载数据库(HTAP)。交易型数据库满足处理在线的实时交易事务场景,而分析型数据库满足分析业务场景,混合负载数据库目标是同时处理简单交易和复杂分析场景。

表2-1业务负载特征进行分类

按照当前部署形态主要分为两种,分别是本地部署和云原生数据库。本地部署按照架构分类主要有三类:单机、集群、分布式。其中云原生数据库和分布式数据库受到广泛关注,也成为国内数据库厂商重点突破口和主要发力方向。

图3部署形态分类介绍

2.2非关系型数据库(NoSQL)

NoSQL,是对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL数据库的产生就是为了解决大规模数据集合和多重数据种类带来的挑战,特别是大数据应用难题。因为NoSQL数据库去掉了关系数据模型的特性,因此数据之间没有关系,容易进行扩展。此外,得益于NoSQL数据库数据模型的无关系性,数据库的结构变得比较简单,因此更容易支持海量数据的存储和高并发读写,性能比较优秀。

NoSQL数据库主要包括五种类型:键值数据库(Key-Value Database)、图数据库(Graph Database)、时序数据库(Time Series Database)、列簇式数据库(Column-family Database)和文档数据库(Document-Oriented Database)。

(1)键值数据库Key-Value

键值数据库使用简单的键值方法来存储数据,具有较高的容错性和可扩展性。这类数据库主要会使用到一个哈希表,表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。在不涉及过多数据关系业务的场景中,使用键值存储可以非常有效地减少读写磁盘的次数,比关系型存储拥有更好的读写性能。常见的键值数据库有:TcaplusDB、Abase、Todis等

(2)图数据库Graph

图数据库是以点、边为基础存储单元,以高效存储、查询图数据为设计原理的数据管理系统。图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它使用灵活的图形模型并且能够扩展到多个服务器上。图数据库把数据间的关联作为数据的一部分进行存储,关联上可添加标签、方向以及属性,这使得其在关系查询上相比其他类型数据库有巨大性能优势。常见的图数据库有:TGDB、AlibabaGDB、StellarDB等。

(3)时序数据库TimeSeries

时序数据库主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的数据。时序数据库能够有效地处理庞大且统一的数据,其独特属性意味着可以在存储空间和性能方面提供比通用数据库更加显著的改进。比如基于统一性的专门的压缩算法可以提供优于常规压缩算法的数据处理效率;对重复或过于陈旧的数据,可以定期删除以节省空间;特殊的数据库索引还可以提高查询性能。常见的时序数据库有:TDengine、DolphinDB、IoTDB等。

(4)列簇式数据库Column-family

列簇式数据库不同于列数据库,键仍然存在,但是它们的特点是指向了多个列,这些列是由列家族来安排的,即通过融合行键值和列来形成统一关键字,并且可以把值分成多个列簇,让每个列簇代表一张数据映射表,通常用来应对分布式存储的海量数据。常见的列簇式数据库有:CloudTable、Hyperbase、GeminiDB等。

(5)文档数据库DocumentOriented

文档数据库的灵感来自于Lotus Notes办公软件,是用来管理文档的。在文档数据库中,文档是处理信息的基本单位,一个文档相当于关系型数据库中的一条记录。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时其查询效率更高。

2.3混合型数据库(NewSQL)

NewSQL词最早由451Group的分析师MatthewAslett在研究论中提出。NewSQL是一类现代关系型的DBMS,旨在为NoSQL的OLTP读写负载提供相同的可扩展性能,同时仍然提供事务的ACID保证。

简单来讲,NewSQL就是在传统关系型数据库上集成了NoSQL强大的可扩展性。传统的SQL架构设计基因中是没有分布式的,而NewSQL生于云时代,天生就是分布式架构。NewSQL的优点在于兼具NoSQL对海量数据的存储管理能力和传统关系数据库的ACID、SQL等特性,但其也有局限性,即不具有SQL系统的通用性,对传统SQL系统的丰富工具仅仅提供部分访问。

NewSQL又分为三部分:

(1)完全使用新的架构重新设计开发的NewSQL数据库;

(2)在中间件层实现NewSQL特性的数据库;

(3)云计算平台提供的数据库即服务产品,通常也基于新的架构。

前国内的NewSQL数据库有OceanBase、SequoiaDB、TiDB。

2.4其他

随着数据库领域的高速发展,越来越多的产品呈现在市场上,不同的数据库产品,其品类特征、适用场景、评测标准也不尽相同。以下是新增的三种数据库。

(1)空间数据库:是一种能够有效地存储、操作和查询空间数据的数据库管理系统。空间数据表示几何空间中的对象,例如点和多边形。空间数据库系统的三大要素为空间数据类型、空间索引和空间分析函数。例如:iBEST-DB、Spacture以及GanosBase等。

(2)向量数据库:就是用来存储,检索,分析向量的数据库。从技术角度来讲,向量数据库主要解决2个问题,一个是高效的检索,另一个是高效的分析,其数据规模超过传统的关系型数据库。例如TensorDB、Milvus以及Vearch等。

(3)搜索数据库:是一类专门用于数据内容搜索的非关系数据库。搜索引擎数据库使用索引对数据中的相似特征进行归类,并提高搜索能力。搜索引擎数据库经过优化,以处理可能很长、半结构化或非结构化的数据,它们通常提供专业的方法,例如全文搜索、复杂搜索表达式和搜索结果排名。例如:Scope、Tera。

3. 国产数据库品牌

墨天轮每月都会在其官网上发布中国数据库流行度排行榜,如下图所示是其最新的中国数据库流行度排行。

图4 2022年6月 墨天轮中国数据库流行度

由于2022年5月的榜单中,openGauss首次登上榜首,且前九名的数据库可用一句概括:三商三云三开源,非常具有代表性,因此以五月情况为例来讲述国产数据库品牌。

 

图5 2022年5月排行榜TOP10得分详情表

数据库技术的发展经过了三个时代,从商业、到开源,再到云数据库时代,榜单的前九名恰好反应了三个时代:三个商业数据库品牌:达梦、GBase、金仓;三个开源数据库品牌:openGauss、TiDB、OceanBase;三个云数据库品牌:GaussDB、PolarDB、TDSQL。

图6国产数据库厂商

接下来分别介绍其中之一,即达梦、TiDB、GaussDB。

(1)达梦数据库管理系统(DM8)

武汉达梦数据库股份有限公司成立于2000年,为中国电子信息产业集团(CEC)旗下基础软件企业,致力于数据库管理系统与大数据平台的研发、销售和服务,同时可为用户提供全栈数据产品和解决方案。

多年来,达梦公司始终坚持原始创新、独立研发,目前已掌握数据管理与数据分析领域的核心前沿技术,拥有全部源代码,具有完全自主知识产权。

在40余年的发展过程中,达梦公司在国产数据库行业持续领跑,先后完成了近60项国家及省市级的科研开发项目,取得了近400项研究成果,皆为国际先进、国内领先水平,有30多项国家、省部级奖励。

DM8是达梦公司在总结DM系列产品研发与应用经验的基础上,坚持开放创新、简洁实用的理念,推出的新一代自研数据库。DM8吸收借鉴当前先进新技术思想与主流数据库产品的优点,融合了分布式、弹性计算与云计算的优势,对灵活性、易用性、可靠性、高安全性等方面进行了大规模改进,多样化架构充分满足不同场景需求,支持超大规模并发事务处理和事务-分析混合型业务处理,动态分配计算资源,实现更精细化的资源利用、更低成本的投入。一个数据库,满足用户多种需求,让用户能更加专注于业务发展。

图7达梦数据库产品

(2)TiDB

PingCAP公司成立于2015年,是一家企业级开源分布式数据库厂商,提供包括开源分布式数据库产品、解决方案与咨询、技术支持与培训认证服务,致力于为全球行业用户提供稳定高效、安全可靠、开放兼容的新型数据服务平台,解放企业生产力,加速企业数字化转型升级。在帮助企业释放增长空间的同时,也提供了一份具有高度可参考性的开源建设实践样本。

TiDB是PingCAP公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理(Hybrid Transactional and Analytical Processing, HTAP)的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时HTAP、云原生的分布式数据库、兼容MySQL5.7协议和MySQL生态等重要特性。目标是为用户提供一站式OLTP(Online Transactional Processing)、OLAP(Online Analytical Processing)、HTAP解决方案。TiDB适合高可用、强一致要求较高、数据规模较大等各种应用场景。

图8 PingCAP的科技与创新

(3)GaussDB

华为目前是全球第一大电信设备商,更是全球5G技术领跑者,技术领域的行业地位毋庸置疑。据华为GIV报告显示,全球数据量到2025年将增长至180ZB,AI应用率也将达到80%,基于此背景,华为面向全球发布了人工智能原生(AI-Native)数据库GaussDB。在极致性能的加持下,华为GaussDB数据库广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,并为全球60个国家及地区、1500多个客户提供了优质服务。

图9华为云数据库产品总览

GaussDB是华为自研数据库品牌,是华为基于外部电信与金融政企经验、华为内部流程IT与云底座深耕10年以上的数据库内核研发优化能力,从客户对高可用、高性能、安全可靠等诉求出发,结合云的技术倾力打造的企业级分布式数据库。

图10 GaussDB功能总览

GaussDB是一个产品系列,在整体架构设计上,底层是分布式存储,中间是每个DB特有的数据结构,最外层则是各个生态的接口,体现了多模的设计理念。此外,华为还联合各行业顶尖ISV为客户联合开发解决方案,致力于打造繁荣的生态圈。照此趋势来看,华为在云、人工智能和物联网领域的进步,也代表了整个大数据市场的进一步繁荣,并正在通过产品创新、解决方案创新以及在数据库领域展现的技术价值与产品价值,为各行各业赋能。

(国产软件知识系列由樊重俊教授国产软件知识团队撰写,

本文执笔:徐丹丹,修正:张红柳,引自:数字经济探索。)


上一篇:国产基础软件生态

下一篇:国产操作系统——发展、类别和品牌

呈贡主校区:呈贡区雨花片区1号 邮编:650500
一二·一西南联大校区:昆明市一二·一大街298号 邮编:650092
 Copyright © 2021 云南师范大学网络与信息中心