Y雪之花

编辑于 2020-08-14 17:19

大数据的的确确正在改变我们的世界。

在这场出人意料的新冠疫情之下，中国的大数据技术展现了惊人的威力：
追踪流动人口，极速公布各地疫情报告，覆盖所有人群的健康码大数据服务，电商数据调动医疗资源，AI+大数据助力医药研发······不管是传统的结构化数据，如人员信息、医院等医疗资源信息等，还是复杂的非结构化数据，如地理位置数据、图像数据、文本数据、语音数据等，各个层面的海量数据在客观、透明的基础上，以不同的技术进行处理、分析，助力全民战疫。

这些应用的背后是中国大数据技术与应用的进步，大数据基础软件自主研发成果不断，大数据软件国产化替代加速，大数据上云向用户提供按需服务，金融、航空航天、新零售等行业大数据应用卓有成效。而在数字化商业世界中，新的时代会产生新的机会，新的技术会创造更广阔的空间。随着数据量和数据种类的不断增多，由单一一个数据平台处理一类数据的应用虽然能力不断完善，但是还是难以满足用户用一个平台处理不同类型数据模型的需求。人们也期望用一个统一的平台，处理不同类型的数据，提高数据处理和分析的效率，降低成本。

01用户呼唤多模型数据处理平台

大数据平台是囊括大数据存储、处理和数据应用分析的集成化数据开发平台。建设这样一个大数据平台必然会面临很多问题：如何管理一个单体大集群；多源数据如何录入；当数据接入之后，如何高效的存储和查询这些数据，如何管理这些数据，避免形成数据沼泽；如何保障数据安全，如何将数据展现给用户等。这些基本上就是一个企业级大数据平台需要具备的能力。

从2008年诞生起，大数据平台从落地上看就是一组技术或者工具的组合，是以海量数据存储、计算及不间断流数据实时计算等场景为主的基础设施。

而开源社区其实已经发展出了多种组件，可以供市场组合一套大数据平台.但是由于涉及到公司内部的业务场景以及模式，以及很难有非常全面掌握这些工具的人才，所以这些工具组合可能不完全适用。

到目前为止，对于一些单一的典型场景，市场上出现不同的产品，有了知名的解决方案，解决数据的多样性。

例如，结构化数据使用Hive，动态列模型使用Bigtable、Hbase，应用于数据存储的文档数据库MongDB，专注于满足各类复杂搜索需求的ElasticSearch，常被应用于会话缓存的高速NoSQL数据库Redis，图数据库Neo4J，以及由实时计算引擎正成为通用大数据引擎的Flink等。

但是这些产品都是孤立的，每一个或者类只能解决一类问题。当用户的数据有很多类型，就不得不采用不同种类的数据库，并把它混在一起使用。

接受记者采访的一位不愿署名的专家认为，新的数据类型，传统关系结构数据、半结构化、非结构化数据，以及新的业态（如IOT）、新的数据来源（外部爬虫数据）、新的数据格式（如社交、游戏、地理）等多元化的数据出现，都对多模异构数据处理产生诉求。

02两条发展路径，两种不同结果

在大数据软件发展中，技术路线发展演绎精彩纷呈，令人目不暇接。毕竟这是一个巨大的市场机会，创造天量的市场机会，也会诞生像微软、谷歌、AWS一样的行业巨人。

虽然专家们将大数据的技术路线大体上分为Hadoop路线、Spark路线、自主研发路线、以及上一代MPP架构沿用路线等，但是记者认为，在发展多模型大数据平台方面，基本上可以分为两大技术路线，一是开源路线，另一个是自主研发路线。

不管是哪种技术路线，一些数据库或大数据厂商在多模型数据处理上都提出自己的“行业解决方案”，一些则推出自己的“数据云平台”等。虽然各种描述五花八门，但其解决的核心问题和其核心架构，还是解决异构数据库间的数据同步等底层问题，使客户从这些底层问题中解放出来，像使用单一数据平台一样简便易用，从而为客户创造价值。

开源路线的代表就是Hadoop和Spark。

提起大数据，依然不能不提Hadoop。因为Hadoop让海量的数据能分布存储，并能分布的存取与处理。过去Hadoop几乎成了大数据的代名词。

专家认为，作为大数据基础软件的一大技术路线，基于开源Hadoop发展的最大优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下，运行速度虽然不占优势，但却十分稳定。既是优势也是劣势，Hadoop在批处理方面的强大无法掩盖其在交互式分析和流处理方面的缺憾。

在大数据发展中，开源大数据平台Hadoop占据至关重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三驾马车。

2018年，Cloudera和Hortonworks因为连连亏损，两大巨头公司宣布平等合并，Cloudera以股票方式收购Hortonworks。但合并后公司股价继续下跌。

2019年6月，MapR就预告公司营收遇到困难，正在寻求解困的措施。随后的8月6日，惠普企业HPE宣布收购MapR的资产，包括MapR的技术、知识产权、人工智能以及数据管理方面的专业经验。

Spark技术的代表企业是Databricks。Databricks公司是由加州大学伯克利分校负责开发流行的开源Apache Spark数据处理框架的团队创建的。该公司帮助大企业快速处理、整合和分析大量数据。它的统一分析平台旨在孤立的数据存储系统之间建立数字管道，并帮助工程师和数据科学家更好地沟通。

Databricks公司业务方向已经转移到“大数据分析和人工智能解决方案”。现在行业内更多的将其看成一家AI公司。

针对多模型数据处理，开源路线方面的举措是推出多模型数据库，当然这些数据库也是开源的。

ArangoDB是一个开源的、原生的多模型NoSQL数据库，同时支持Doc、Graph、K/V三种存储，它有适用于全部三种数据模型的统一内核和统一数据库查询语言—AQL (ArangoDB Query Language)，非常适用于搭建高性能的应用和服务。

ArangoDB还允许在单个查询中混合使用三种数据模型。因此，用户可以在单次查询过程中混合使用多种数据模型，而无需在不同数据模型间相互“切换”，也不需要执行数据传输过程，并且这三种数据模型均支持水平扩展。

2018年初，ArangoDB完成1156万美元融资，深受投资人追捧。2020年初，ArangoDB 3.6 发布。

星环科技求职资料大礼包领取

大家都在关注

校招日程表笔试日历 ai模拟面试面试宝典剑指offer 知识点专项练习

已采纳

采纳

精彩回帖

精彩

全部评论

(0) 回帖

加载中...

话题同步到我的动态回帖

大数据的的确确正在改变我们的世界。

已采纳

精彩回帖

全部评论

推荐话题

近期热帖

近期精华帖

热门推荐

大数据的的确确正在改变我们的世界。

已采纳

精彩回帖

全部评论

推荐话题

相关热帖

近期热帖

近期精华帖

热门推荐