加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 创业 > 模式 > 正文

三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

发布时间:2019-06-21 05:42:17 所属栏目:模式 来源:InfoQ
导读:副标题#e# 今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应
副标题[/!--empirenews.page--]

今年 5 月底,MapR被曝融资困难,可能在不久之后关闭,这个曾经估值高达 10 亿美元的 Hadoop 赛道的有力挑战者或将就此衰落。随后,同样围绕 Hadoop 进行商业化落地的Cloudera股价在 6 月 6 日(美东时间)开盘后暴跌 43%,这些老牌 Hadoop 供应商的落败一定程度上被认为与云厂商的崛起有关。然而,Hadoop 生态厂商发展到这一步到底与哪些因素有关?这是否意味着整体生态开始走下坡路?

三大 Hadoop 厂商衰落   在围绕Hadoop进行商业化的厂商中,Cloudera、Hortonworks 和 MapR 曾是最为外界所关注的对象,直到 Cloudera 和 Hortonworks宣布进行全股合并时,业界大部分声音是看好的。Syncsort首席技术官指出,虽然 Hortonworks 的产品专注于物联网和流数据场景,Cloudera 专注于数据科学、机器学习和人工智能。但在她看来,这可以使合并取得成功,因为合并后的公司将比二者中的任何一个都发展得更快,走得更远。  

合并后不久,Cloudera 宣布的收入比分析师预测少了 6900 万到 8900 万美元。与此同时,公司首席执行官 Tom Reilly、联合创始人兼 CSO Mike Olson 双双宣布辞职。该公司股价随即暴跌 40%。   至于 MapR,其商业化的主要途径是提供优于开源 Hadoop 的特性,比如其创始人 M.C.Srivas 在公司创建伊始就将 Hadoop 文件系统 HDFS 进行了重构,兼容 Hadoop 协议的同时保持闭源,一度给外界造成技术实力优于整个 Hadoop 社区的感觉,可惜的是用户对此并不买账,导致其融资困难,甚至开始裁员并计划关闭硅谷总部。  

对此,一位不愿意透露姓名的云计算领域专家在接受 InfoQ 采访时表示,开源颠覆了传统软件,云计算又颠覆了开源厂商。大数据的市场空间本身存在,但是随着云计算厂商的接入,确实削弱了传统大数据厂商的盈利能力。云厂商对传统大数据厂商冲击太大,因为总体成本更低,可获得性更容易,而这三家大数据厂商并没有提供相比云计算厂商大数据能力的差异化点。  

当然,这三家围绕 Hadoop 进行商业化的厂商的衰落并不代表整个 Hadoop 生态的陨落,只能说明这样的商业化路径存在问题(不要将厂商和生态混为一谈)。 专家指出,过去,开源对传统软件是一种颠覆式的影响,在开源尤为活跃的大数据技术领域采用传统软件的商业化模式是一种逆势而为,云计算的兴起正在对开源产生巨大影响,正如Clint Sharp 所指出的,“Hadoop 的主要应用场景一直是廉价的存储。然而,有了云之后,存储变得更廉价,更何况 S3+EMR 和其他服务的用户体验还提高了千倍不止。”  

云厂商的颠覆姿态   在企业逐步云化的过程中,云厂商的颠覆者姿态让其受到了诸多指责,比如开源杀手等,但这并没有阻碍企业云化的进程,大数据服务公司也在往云平台的方向演进,比如 Cloudera 与 Hortonworks 合并被认为是在一定程度上提升云服务的竞争力。但是,本地大数据厂商难以独立提供云大数据服务所依赖的全部基础设施资源,一般会集成到各大公有云平台,比如 MongoDB 提供的 Atlas 就与众多公有云厂商合作。因此,在各大公有云平台上,可以看到越来越多本地大数据服务商提供的服务。   那么,云厂商的出现为什么会对这一领域造成如此影响呢?专家认为,首先要从大数据的本源谈起,大数据的本源是需要处理的数据集远远大于单台物理机能够存储和处理的数据量。在这种情况下,出现了两个技术:一是跨服务器存储的分布式文件系统HDFS(当然,最早来自于谷歌论文);二是多机器处理的计算框架。这种体系在大数据发展的早、中期起到了非常大的作用,就是把大批量中低等级的硬件系统集成起来以处理海量数据。  

在实践过程中,这种架构逐渐出现内在的不均衡。简单来说,物理机的计算和存储比例是固定的,但是从应用视角来看,计算和存储的比例关系往往是动态的,有些公司计算过剩,有些公司存储过剩,这导致硬件选型成为一个很大的挑战。同时,对于长久存在的大数据系统来说,新老硬件组成的非均质系统也存在负载均衡等管理上的挑战。  

随着云架构的发展,无论是公有云,还是私有云,特别是公有云,可以实现存储与计算分离。IaaS 层将计算、存储、网络作为资源动态提供给用户消费,这成为一个最佳实践,完美消除了计算和存储的动态均衡问题。从最优化的角度来看,相对于传统的计算、存储一体化的大数据系统,云平台大数据服务无疑存在一些开销,但是这种形态让大数据集群建设初期要考虑的计算和存储匹配,网络设计等问题都“推迟决策”了,换言之就是不用那么早考虑,在具体业务使用时随用随取,这为业务带来了极大的灵活性。  

从这个角度看,基于云架构的大数据系统,本质上提供了灵活性,而对数据业务本身而言,灵活性、动态性恰好是根本,那么基于云架构的大数据服务刚好契合了这些特征。大数据云服务的本质优势是享受更低成本、更快的技术更新。在过往与企业大数据团队打交道的过程中,专家发现其自建的大数据平台还在使用两年以前的开源大数据组件,因为人员的不稳定造成其不敢轻易进行技术升级,或者说没有能力升级,维护的包袱就会越来越重。  

综上,业内专家向 InfoQ 表示,相比于本地大数据服务,云大数据服务灵活的本质是计算和存储分离,本质优势是极大得降低了成本,包括环境成本,节省搭建机房,风火水电,网络,操作系统等的时间;研发成本,节省服务搭建,研究周边依赖,可靠性部署,安全对接等的时间;人力成本,大数据运维需要非常专业的人才能胜任,企业应该聚焦在业务上而不是大数据平台的运维上;运行成本,大数据云服务厂家和基础设施的配合可以做到最优,尽可能减少资源消耗。  

选用原则   在过往与企业用户打交道的过程中,完全依靠本地大数据服务,选择部分云供应商的大数据服务,在公有云的基础设施之上自建大数据服务的用户皆而有之。  

就此现状,InfoQ 采访了华为云布道师赵军。他表示,大数据框架中的服务本身对基础设施并没有强绑定要求,而当前云端的性能、可靠性、可运维性已经足够高。就服务本身而言,所有大数据服务都适合在云端运行,企业应该根据业务类型进行区分。如果业务可以上云,则所有都可使用云端大数据服务。  

在具体选用上,可以结合成本构成分析大数据平台的使用,包括如下几方面:  

风、火、水、电数据中心的成本  

IaaS 成本  

大数据软件栈的成本  

运维大数据软件栈的成本  

使用大数据软件栈的团队的成本  

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读