分布式分析型数据库

北京东方国信科技股份有限公司

企业简称:东方国信                 成立时间:1997-07-28                 网址:http://www.bonc.com.cn
产品名称:分布式分析型数据库 参选理由:

东方国信成立于1997年,是我国专注于大数据核心底层技术研发的民族高科技上市企业(股票代码:300166)。业务范围覆盖通信、金融、工业、智慧城市、公共安全、智慧旅游、农业、医疗、媒体、大数据运营等行业。2017入围福布斯中国上市公司潜力企业榜。

分布式分析型数据库是集群化、高性能的基础数据库平台,以海量的结构化数据为分析对象,基于对称处理技术(SMP:Symmetric Multiprocessing)、海量并行处理技术(MPP:Massive Parallel Processing)、联机分析技术(OLAP:On-Line Analytical Processing)等的结合体,具有负载均衡、高度兼容、动态扩展和安全可靠等特性;服务于海量数据分析,提高数据密集型行业的高效运营。通过利用列存储、创新算法的编码、结合多种数据压缩方法、查询优化等关键技术,极大的提高了对大数据查询速度,能够实现对大数据的实时查询,帮助企业更好的做出科学决策。东方国信分布式分析型数据库是针对海量数据进行查询分析的基础数据库平台,满足大数据时代的对海量数据分析的需求,满足目前电信、金融、智慧城市、工业、农业、媒体等各行业大数据分析的行业需求,有广阔的市场空间和发展前景。

随着过去10年,全球在分析型数据库需求增长速度稳定在10%左右,高性能分析型数据库市场的稳定增长是可预期的。

东方国信分布式分析型数据库在通信、金融、智慧城市等领域推广使用。在电信行业平均每日处理数据2万亿条以上,帮助客户查询数据量达到50万亿条+,所建的大数据平台节点最大规模超过1万。

通过完全自主对分析型数据库核心技术的研究,可以提高我国高端数据库软件产业自主创新能力和核心竞争力,突破产业结构中的关键技术,打破国外厂商在分析型数据库方面的垄断。符合国家“十二五”科学和技术发展规划中新一代信息技术对高性能计算的发展(“中国云”工程)政策方针。

该项目以产品开发和商业应用为基础,其系统框架中包括了三个关键技术,“质量策略管理”解决程序开发质量等问题;“安全策略管理”解决代码中的安全缺陷;“测试策略管理”帮助开发者发现软件漏洞、关注风险代码。这三个关键技术建立在东方国信现有的“开发分析验证引擎”的基础之上,有助于实现便捷的程序开发和准确源代码分析,便于在整个开发团队中共享信息和数据。在此之上还有策略管理,用于定义软件质量和性能指标,及时发现风险高的代码组件并进行完善的测试来降低开发开发过程中的风险。

技术创新主要体现在产品实施的过程和申请专利文章,在分布式数据分析引擎技术中执行计划优化器创新性的运用了基于HDFS的分布式Planner的负载均衡技术和计算本地化,使用迭代式回溯算法,保证计算本地化基础上,能够实现海量数据下的、快速的负载均衡,让海量数据分析的查询速度大大得到提高。分布式数据分析引擎技术充分利用硬件特性(如Cache,指令流水线),利用内存压缩、优化和索引技术,进行性能改进,提高海量数据分析的性能;动态资源管理包括内存、CPU和线程等资源,动态资源管理的有效开发,提高海量数据分析的效率。异步IO调度技术,分离计算线程和IO线程,提高IO吞吐率,减少计算线程等待的时间,提高了查询速度。基于MVCC的事务支持技术,减少读写之间锁阻塞,提高并发能力。

分布式的数据存储利用了创新性的利用了效果优选的组合数据压缩算法,充分利用了分布式集群的空间,极大的提高了数据存储的空间,促进了海量数据查询的速度。批量数据加载时,加载的数据文件中加入分组索引,提高数据查询和分析数据需要访问的命中率。加载海量数据的时,能对加载的数据进行预排序,分布式数据存储技术能提高减少无效数据访问。

高速数据传输关键技术利用先进可靠的传送数据的压缩编码,在有限的带宽下查询提速,极大的提高了数据传输的速度;分布式分析型数据库利用分布式计划并发调度执行与状态控制技术,提升了查询执行速度;高速数据传输过程中利用了类型安全校验,提供了海量数据的安全性;高速数据传输的数据分发模式支撑多种分布式查询任务,为多样性的数据查询提供了便利。

产品介绍:

一、项目的背景和必要性

在信息时代,数据将成为企业竞争甚至国家最宝贵的资产,而发挥这份资产的价值离不开商业智能和高性能分析型数据库技术。自从2010年以来,随着存储设备、带宽、处理器成本的快速下降,海量数据处理能力不足明显地成为产业发展的瓶颈,约束了数据价值的充分发挥。面对呈指数级别增长的海量数据的挑战,利用传统数据库进行查询,已经无法满足用户所需要的时效性。

从全球大数据发展的背景来看,越来越多的业内人士意识到即将面临海量数据处理的挑战和机遇。科学家预测处理大数据的关键技术将产生创新性和突破性的研发成果。在国内的经济高速发展的社会背景下,海量数据的产生同样给国内的研发人员带来全新的机遇和挑战。

在大数据的时代,我们沉着、冷静的面对这一难题,并创新性的研发新型数据库来破解这一难题。东方国信自主研发的分布式分析型数据库作为创新性的数据库软件模式,通过利用列存储、创新算法的编码、结合多种数据压缩方法、查询优化等关键技术,极大的提高了对大数据查询速度,能够实现对大数据的实时查询,帮助企业更好的做出科学决策。

分布式分析型数据库是以海量的结构化数据为分析对象,基于对称处理技术(SMP:Symmetric Multiprocessing)、海量并行处理技术(MPP:Massive Parallel Processing)、联机分析技术(OLAP:On-Line Analytical Processing)等的结合体,是集群化、高性能的基础数据库平台,具有负载均衡、高度兼容、动态扩展和安全可靠等特性;服务于海量数据分析,辅助管理层科学决策,提高数据密集型行业的高效运营,提升公司市场竞争力。

东方国信为落实国家科技工作中“自主创新,重点跨越,支撑发展,引领未来”的指导方针,坚定不移地走中国特色自主创新道路,把提高自主创新能力摆在公司研发工作中的突出位置。公司为响应国家“十二五”科学和技术发展规划中新一代信息技术对高性能计算的发展(“中国云”工程)政策方针,自主创新设计研发的列存数据库,对于推动“中国云”工程的发展将起到积极作用。

在信息化时代,数据将成为企业甚至国家竞争最宝贵的资产,而发挥这份资产的价值离不开高性能分析型数据库和商业智能技术。过去10年,全球在分析型数据库需求增长速度稳定在10%左右,根据东方国信在电信行业的经验,电信业数据量每年增长30%以上;未来随着移动互联网的普遍应用以及电信行业数据集中化的趋势,数据量的增长速度将会进一步加快。展望未来,高性能分析型数据库市场的需求肯定是稳定增长。

自主创新研发的分布式大数据处理平台,能充分利用对称式多处理器(SMP – Symmetric Multi Processing)架构的优势,是数据仓库“云化”的必由之路。自主创新设计的列存数据库利用先进算法,结合先进硬件(譬如说:L2 Cache、多核心芯片、SMP)、针对中国海量数据处理的特殊需求而设计的分析型数据库,在最佳状态下速度提高达10倍,是未来高性能分析型数据库发展的必然趋势。

分析型数据库适应大数据时代的社会需求,东方国信在电信市场具有稳定的市场基础,国内外市场还未形成有影响力的品牌产品。东方国信在电信运营商数据分析领域中占有相当份额的市场,全国各运营子公司对分析海量数据的需求强烈,因此分布式分析型数据库未来有相对比较稳定的市场基础。目前,随着海量数据的产生和凸显,分析型数据库顺应时代潮流应运而生。国内外分析型数据库刚刚起步(如Oracle、GreenPlum、达梦DM7等),分析型数据库领域还未形成有影响力的品牌产品,国产数据库拥有良好的发展机遇。东方国信分布式分析型数据库是针对海量数据进行查询分析的基础数据库平台,满足大数据时代的对海量数据分析的需求,满足目前电信、金融等大数据分析的行业需求,有广阔的市场空间和发展前景。

依靠东方国信在电信领域的客户基础,初期在电信领域推广使用,建立牢固的电信市场根据地后,有步骤、有秩序的逐步拓展到大数据行业的各个领域。可灵活采用SI、ISV、VAR、OEM等渠道策略对未来产品进行推广和营销。逐步拓展国内外市场,形成有国际影响力的国产分析型数据库品牌产品。

随着信息化的发展,企业要运用经营过程中积累的历史数据做为企业决策的依据来提升市场竞争力,提高企业的影响力,实现精准和高效运营力。在信息化建设过程中,企业为了提高自身的自主创新力、创造品牌效应,必定要进行大量的投资,商业智能(BI和大数据)由此应运而生。

从商业智能角度来看,企业处理数据往往经过采集、汇整(ETL – Extract Transform Load)到数据仓库(Data Warehouse)的建设方式。然而,随着海量数据时代的来临,以云化、列存、多维分析等关键技术作为数据仓库的核心技术,加快数据存、取的速度、提高数据查询效率,已是世界级数据库厂商在BI和大数据领域竞逐的重要指标。

从全球来看,根据IDC最近发布的数据,2012年分析型软件的市场已达340亿美元。2012年和2011年相比较,市场同比增长8.2%。大型分析型软件厂商IBM、HP、Teradata、EMC、SAP等在近几年都在数据库领域开展收购并大力推进。

EMC于2010年6月以超过6亿美金收购Greenplum

SAP于2010年5月以58亿美金收购Sybase

IBM于2010年9月以17亿美金收购Netezza

HP于2011年2月收购Vertica

Teradata于2010年8月收购Kickfire

由此可见,基于大数据分析的数据库产品的广泛应用前景在国外已得到普遍的认可,从而成为数据库厂商竞争优势的重要源泉。

首先,中国正处于经济发展方式转变、信息化和工业化深度融合的转型期,国家站在战略高度对促进企业发展出台了一系列政策来不断鼓励企业提升自身信息化水平;其次,中国企业的信息化水平目前正处于中等水平向高水平迈进的关键时期,对商业智能等战略性信息技术的需求潜力正在释放;最后,云计算、物联网等新技术的广泛应用离不开商业智能及数据仓库技术的大力支撑。因此,政策、实际需求和技术因素都有利于数据库市场的高速增长。

纵观目前的数据库市场,中国厂商正面临着巨大的创新机遇。一方面,由于国内统计数据缺少行业标准,统计口径不一,如果直接引入国外数据库方案对数据进行分析处理,往往不能有效处理;另一方面,由于Oracle、MySQL、SQL Server、DB 2和Sybase等国外厂商垄断了大部分的数据库市场,中国的拥有自主知识产权的品牌数据库寥寥无几,这在客观上需要中国厂商推出具有自主知识产权的产品。

国内科研机构、高校和企业已经开展了一些研究工作,但这些研究仅进行了初步探索研究和试验,未进行科研成果转化和应用推广。从整体而言,我国自主知识产权的数据库技术离大规模市场推广的需求还有较大差距。

相较于美国,国内高端软件核心技术的发展仍处于成长期,尤其是核心、分析型数据库软件一直是较少突破的关键一环。在BI和大数据相关领域,国内科研单位和高校在数据挖掘领域有较多的研究(如数据仓库和数据挖掘方面),然而数据仓库核心软件领域投入和研发成果转化相对比较非常少。

区别于交易型数据库(OLTP),分析型数据库的技术要求更为严格苛刻,重点体现在海量数据快速的存取,即实时交互对数据压缩及查询所需时间要求极高,分析型数据库作为攻克这一难点的关键技术。

根据学术研究报告及东方国信内部产品雏形论证,为了充分发挥分布式分析型数据库技术的优越性、达到国际领先水平,自主研发模式是必然选择。只有在该模式下,才可避免基于开源产品带来的技术架构的限制、达到国际最高水平,为产品的可持续发展扫清障碍。自主研发、重新架构、整体设计,从架构到代码均针对分析型数据库进行针对性设计和优化,具有完全的自主知识产权,这就必然要求拥有一个自主、独立的研发环境。

二、项目主要技术的创新性、先进性

1.项目的创新点

在项目系统架构方面,东方国信针对分布式分析型数据库及后续产品的的开发搭建了专用的研发和测试平台,该平台集成了当今先进的软件开发和软件测试技术,同时融合了具有东方国信特色的开发模式,具有极高的实用性、先进性、高效性和鲜明的企业特色。

该项目以产品开发和商业应用为基础,其系统框架中包括了三个关键技术,“质量策略管理”解决程序开发质量等问题;“安全策略管理”解决代码中的安全缺陷;“测试策略管理”帮助开发者发现软件漏洞、关注风险代码。这三个关键技术建立在东方国信现有的“开发分析验证引擎”的基础之上,有助于实现便捷的程序开发和准确源代码分析,便于在整个开发团队中共享信息和数据。在此之上还有策略管理,用于定义软件质量和性能指标,及时发现风险高的代码组件并进行完善的测试来降低开发开发过程中的风险。

技术创新主要体现在产品实施的过程和申请专利文章,在分布式数据分析引擎技术中执行计划优化器创新性的运用了基于HDFS的分布式Planner的负载均衡技术和计算本地化,使用迭代式回溯算法,保证计算本地化基础上,能够实现海量数据下的、快速的负载均衡,让海量数据分析的查询速度大大得到提高。分布式数据分析引擎技术充分利用硬件特性(如Cache,指令流水线),利用内存压缩、优化和索引技术,进行性能改进,提高海量数据分析的性能;动态资源管理包括内存、CPU和线程等资源,动态资源管理的有效开发,提高海量数据分析的效率。异步IO调度技术,分离计算线程和IO线程,提高IO吞吐率,减少计算线程等待的时间,提高了查询速度。基于MVCC的事务支持技术,减少读写之间锁阻塞,提高并发能力。

分布式的数据存储利用了创新性的利用了效果优选的组合数据压缩算法,充分利用了分布式集群的空间,极大的提高了数据存储的空间,促进了海量数据查询的速度。批量数据加载时,加载的数据文件中加入分组索引,提高数据查询和分析数据需要访问的命中率。加载海量数据的时,能对加载的数据进行预排序,分布式数据存储技术能提高减少无效数据访问。

高速数据传输关键技术利用先进可靠的传送数据的压缩编码,在有限的带宽下查询提速,极大的提高了数据传输的速度;分布式分析型数据库利用分布式计划并发调度执行与状态控制技术,提升了查询执行速度;高速数据传输过程中利用了类型安全校验,提供了海量数据的安全性;高速数据传输的数据分发模式支撑多种分布式查询任务,为多样性的数据查询提供了便利。

2.项目技术的市场前景分析

本产品目前应用领域为电信运营类企业。由于电信运营类企业业务内容、客户种类的复杂性,决策过程中对大量的信息的统计分析是人工难以完成的,而且即使完成也很难具有时效性,所以电信需要一套高效、快捷、准确的信息分析系统;数据仓库系统就是为企业管理层提供管理决策的信息依据,对已有的信息进行选择、加工、分析,以达到各种使用者的要求,从而在分析的结果上进行管理决策,是实现科学决策的方法和手段。

在其它领域的应用:

(1)在通讯、金融、证券行业必须加强其科学、合理、正确的决策过程和有一套能正确、快速作出决策的系统的方法和手段。在这个前提下,由于数据仓库系统可以提供客观、准确、快速的信息提供、筛选、加工分析,缩短决策过程和提高决策的可靠性,数据仓库系统将会得到广泛的应用和发展。

(2)我国为应对国际竞争,加快经济的发展速度,在各行各业加大投入来推动信息化建设。目前信息化建设的基础工作在80%的行业完成,但基本上是停留在硬件基础上的,要让他们发挥作用,应用将成为下一步的重点投资和重点工作内容。这样就为本产品营造了很好的市场环境,数据仓库系统会作为信息化建设和应用的重心得到发展,各行各业为了做正确的工作也会把对决策的及时、可靠、实时、有前瞻性、可预测要求提高到一个新的高度;那么在信息过量的时代,如何收集,加工,分析也会成为他们首要解决的问题,自然对数据仓库系统的需求会空前增长。

(3)随科学管理的理念根植于企业,企业为提高竞争力、创造客户价值、对效率的追求也会迫使它们重新审视科学的管理方法和手段,这样也产生了潜在的市场。

因而,预计在未来3-5年,通讯、金融、电力、证券、物流行业、制造行业、电子政务将会对本产品的需求将会达到一个高潮,上述行业超过70%的企业将会把信息化建设和管理工作的放在首要位置。

三、社会效益分析

对于研发类项目,重点从项目执行期内计划实现的技术指标及对社会、产业的贡献等方面进行详细的分析。

1.提高国产数据库的技术水平

东方国信在核心技术方面始终坚持自主研发的路线,拥有通用数据模型、数据清洗、稽核、元数据、分析图表引擎、可视化报表设计、基于语义层的即席查询、挖掘模型、广义工作流、业务服务规则引擎等核心技术。以数据库核心技术为依托,东方国信未来研发的商业智能产品能够充分满足客户在数据仓库建设、经营分析、决策支持、数据挖掘、客户服务与营销等众多领域的需求,并且在实施过程中能够进行灵活定制,满足不同客户的差异化需求。项目建成后,与实际相结合,将大大提升我国数据库的标准、技术水平。

2.提高技术创新能力

通过对分析型数据库核心技术的研究,是以提高我国高端软件产业自主创新能力和核心竞争力,突破产业结构中的关键技术为宗旨,依托东方国信,联合其它科研机构和院校,建立以产学研相结合的研究开发实体。项目建成后将大大提升我国高端软件产业尤其是商业智能软件技术的创新能力,同时可向相关企业输送掌握高技术的人才,可为行业提供研发、试验基地,促进行业可持续发展。

3.改造传统产业,优化产业结构

本项目实施后,可加快国内相关企业的技术引进、消化吸收进程,大大提高国内企业的研发、创新能力,项目的实施将促进产业技术全面升级,优化产业结构。

4.提升整体产业乃至国家竞争力

本项目实施后,将带动整个行业的技术创新能力的持续提升,有助于国内企业的产品研发和制造,促进商业智能软件行业现代化,提升整个行业及国家的竞争力、影响力。

5.保障各大行业的稳定发展

在信息时代,数据将成为企业甚至国家竞争最宝贵的资产,而发挥这份资产的价值离不开商业智能及高性能分析型数据库技术。过去10年,全球在分析型数据库需求增长速度稳定在10%左右,根据东方国信在电信行业的经验,电信业数据量每年增长30%以上;未来随着移动互联网的应用以及电信行业数据集中化的趋势,数据量的增长速度将会进一步加速。展望未来,该高性能分析型数据库市场的稳定增长是可预期的。

6.建立分析型数据库技术的创新体系

本项目的实施将在数据库技术基础理论和应用技术方面实现突破,建立适合我国的商业智能评估体系和运营维护体系等,形成我国数据挖掘、数据分析标准体系。

7.培养高技术人才

本项目的实施将大大提升我国数据库技术的研发能力和试验分析能力,将培养出大批在数据库技术各研究方向优秀的专业人才,形成创新团队。同时工程实验室通过对外开展技术培训,扩大数据分析技术和工程人员队伍,提升整个国家的商业智能软件的国际水平。

企业简介:

北京东方国信科技股份有限公司成立于1997年7月28日,注册资金104996.948万人民币,办公地址位于中关村电子城科技园区来广营创达三路1号院1号楼。是中国领先的大数据上市科技公司(股票代码 300166)。自成立以来,东方国信就专注于大数据领域,紧跟全球大数据技术的发展趋势,通过自主研发,打造了面向大数据采集、汇聚、处理、存储、分析、挖掘、应用、管控为一体的大数据核心能力,构建了云化架构的大数据产品体系,对标国外优秀软件产品形成了端到端的软硬件相结合的大数据解决方案,并打造了业内领先的大数据能力开放平台解决方案,成为国内民族软件的第一品牌。

基于大数据的核心能力,东方国信以“大数据+”为战略,紧锣密鼓的加快战略布局,以领先的大数据解决方案服务于通信、金融、智慧城市、公共安全、智慧旅游、工业、农业、医疗、媒体、大数据运营等行业和业务领域,帮助客户从数据中获得价值,得到行业与客户的广泛、高度认可,也铸就了东方国信大数据龙头企业的行业地位。

东方国信目前在全国31个省及直辖市都设有分支机构或项目实施团队,构建了贴身式服务的大数据落地应用体系。

“让数据改变工作与生活”是东方国信的企业愿景,“专注、智慧、自省、包容”是东方国信人的行为准则,东方国信已经构建起自有特色的企业文化,培养了大批的行业优秀人才,致力于打造员工满意的雇主品牌。

作为国内大数据龙头企业,东方国信发挥大数据行业资源与能力优势,引入专业投资管理机构和其他社会资本共同设立大数据产业基金,承担大数据企业责任,聚合数据价值,推动大数据+战略落地,引领产业升级,全面优化产业生态链,让大数据的价值更好的服务于社会、企业和民生。

- 微信投票 -