首页 > 大数据的的确确正在改变我们的世界。
头像
Y雪之花
编辑于 2020-08-14 17:19
+ 关注

大数据的的确确正在改变我们的世界。

在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力:
追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数据助力医药研发······不管是传统的结构化数据,如人员信息、医院等医疗资源信息等,还是复杂的非结构化数据,如地理位置数据、图像数据、文本数据、语音数据等,各个层面的海量数据在客观、透明的基础上,以不同的技术进行处理、分析,助力全民战疫。
这些应用的背后是中国大数据技术与应用的进步,大数据基础软件自主研发成果不断,大数据软件国产化替代加速,大数据上云向用户提供按需服务,金融、航空航天、新零售等行业大数据应用卓有成效。而在数字化商业世界中,新的时代会产生新的机会,新的技术会创造更广阔的空间。着数据量和数据种类的不断增多,由单一一个数据平台处理一类数据的应用虽然能力不断完善,但是还是难以满足用户用一个平台处理不同类型数据模型的需求。人们也期望用一个统一的平台,处理不同类型的数据,提高数据处理和分析的效率,降低成本。

01用户呼唤多模型数据处理平台

大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。
建设这样一个大数据平台必然会面临很多问题:如何管理一个单体大集群;多源数据如何录入;当数据接入之后,如何高效的存储和查询这些数据,如何管理这些数据,避免形成数据沼泽;如何保障数据安全,如何将数据展现给用户等。 这些基本上就是一个企业级大数据平台需要具备的能力。

从2008年诞生起,大数据平台从落地上看就是一组技术或者工具的组合,是以海量数据存储、计算及不间断流数据实时计算等场景为主的基础设施。

而开源社区其实已经发展出了多种组件,可以供市场组合一套大数据平台.但是由于涉及到公司内部的业务场景以及模式,以及很难有非常全面掌握这些工具的人才,所以这些工具组合可能不完全适用。

到目前为止,对于一些单一的典型场景,市场上出现不同的产品,有了知名的解决方案,解决数据的多样性。

例如,结构化数据使用Hive,动态列模型使用Bigtable、Hbase,应用于数据存储的文档数据库MongDB,专注于满足各类复杂搜索需求的ElasticSearch,常被应用于会话缓存的高速NoSQL数据库Redis,图数据库Neo4J,以及由实时计算引擎正成为通用大数据引擎的Flink等。

但是这些产品都是孤立的,每一个或者类只能解决一类问题。当用户的数据有很多类型,就不得不采用不同种类的数据库,并把它混在一起使用。

接受记者采访的一位不愿署名的专家认为,新的数据类型,传统关系结构数据、半结构化、非结构化数据,以及新的业态(如IOT)、新的数据来源(外部爬虫数据)、新的数据格式(如社交、游戏、地理)等多元化的数据出现,都对多模异构数据处理产生诉求。

02两条发展路径,两种不同结果

在大数据软件发展中,技术路线发展演绎精彩纷呈,令人目不暇接。毕竟这是一个巨大的市场机会,创造天量的市场机会,也会诞生像微软、谷歌、AWS一样的行业巨人。

虽然专家们将大数据的技术路线大体上分为Hadoop路线、Spark路线、自主研发路线、以及上一代MPP架构沿用路线等,但是记者认为,在发展多模型大数据平台方面,基本上可以分为两大技术路线,一是开源路线,另一个是自主研发路线。

不管是哪种技术路线,一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”,一些则推出自己的“数据云平台”等。虽然各种描述五花八门,但其解决的核心问题和其核心架构,还是解决异构数据库间的数据同步等底层问题,使客户从这些底层问题中解放出来,像使用单一数据平台一样简便易用,从而为客户创造价值。

开源路线的代表就是Hadoop和Spark。

提起大数据,依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储,并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。

专家认为,作为大数据基础软件的一大技术路线,基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,运行速度虽然不占优势,但却十分稳定。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。

在大数据发展中,开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。

2018年,Cloudera和Hortonworks因为连连亏损,两大巨头公司宣布平等合并,Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。

2019年6月,MapR就预告公司营收遇到困难,正在寻求解困的措施。随后的8月6日,惠普企业HPE宣布收购MapR的资产,包括MapR的技术、知识产权、人工智能以及数据管理方面的专业经验。

Spark技术的代表企业是Databricks。Databricks公司是由加州大学伯克利分校负责开发流行的开源Apache Spark数据处理框架的团队创建的。该公司帮助大企业快速处理、整合和分析大量数据。它的统一分析平台旨在孤立的数据存储系统之间建立数字管道,并帮助工程师和数据科学家更好地沟通。

Databricks公司业务方向已经转移到“大数据分析和人工智能解决方案”。现在行业内更多的将其看成一家AI公司。

针对多模型数据处理,开源路线方面的举措是推出多模型数据库,当然这些数据库也是开源的。

ArangoDB是一个开源的、原生的多模型NoSQL数据库,同时支持Doc、Graph、K/V三种存储,它有适用于全部三种数据模型的统一内核和统一数据库查询语言—AQL (ArangoDB Query Language),非常适用于搭建高性能的应用和服务。

ArangoDB还允许在单个查询中混合使用三种数据模型。因此,用户可以在单次查询过程中混合使用多种数据模型,而无需在不同数据模型间相互“切换”,也不需要执行数据传输过程,并且这三种数据模型均支持水平扩展。

2018年初,ArangoDB完成1156万美元融资,深受投资人追捧。2020年初,ArangoDB 3.6 发布。


全部评论

(0) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

历年真题 真题热练榜 24小时
技术(软件)/信息技术类
查看全部

近期精华帖

热门推荐