你的数据仓库还在为企业业务拖后腿吗?
副标题[/!--empirenews.page--]
【51CTO.com原创稿件】 ——传统数据仓库向大数据的渐进式转型 数据仓库系统长期以来一直是企业IT架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,如何面向大数据技术进行数据仓库的优化、转型是企业IT管理者面临的重要挑战。处于不同阶段的企业如何应用大数据技术?如何面向大数据技术进行数据仓库转型?如何对现有数据仓库进行优化?如何在Hadoop中进行性能优化?这些已成为困扰IT管理者的主要问题。 带着诸多疑问,51CTO记者采访了Cloudera售前技术经理、资深解决方案顾问徐峰先生,徐峰拥有14年数据仓库的项目实施经验,曾作为首席架构师参与过多个大型数据仓库项目的架构设计和项目规划工作。徐峰表示,数字化时代,随着企业内部数据的快速增长,以及外部数据采集成本的不断降低,传统数仓在数据存储和分析应用上都面临着巨大的挑战。 现有的数仓环境 传统数仓面临以下局限性:
数据仓库呈现三大发展趋势
企业该如何进行技术选择? 针对这一问题,徐峰认为,企业应根据所处的不同阶段进行选择:
将数据仓库规划在Hadoop之上? “企业可以选择从一开始就将整个数据仓库规划在Hadoop之上。传统数据仓库架构的主要创始人Ralph Kimball博士在2015年发表专题演讲时证实了Hadoop是可以完全取代MPP来建立数据仓库的。”徐峰提到,“在全球范围内,也确实有很多企业已经将他们的数据仓库完全建立在Hadoop之上。” 但是从技术的角度,有一些数据仓库技术或工具与Hadoop相比已非常成熟,可能已有数十年的历史,对于这些长期应用的数据库技术,Hadoop并不具备其中所有的功能或性能。但即便如此,很多用户仍然选择把他们的数据仓库构建在Hadoop架构之上,这是为了能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。在实际应用中,即使是规模只有5个节点的小集群,企业使用Hadoop与其他技术选项相比,也能够取得更好的产出、带来更多的业务价值与竞争力。 Cloudera分析型数据库全面升级 针对当前企业级数据仓库(EDW)面临的ETL批量作业运行缓慢、BI报表不能按时生成、业务用户提交的查询迟迟显示不了结果等压力,结合当前数仓发展的趋势,以及企业的云化需求,Cloudera分析型数据库版本进行了全面升级,于2018年8月正式推出了Cloudera数据仓库版本。 徐峰介绍,Cloudera分析型数据库已经在全球最大的900多家组织机构里运行,是一款经历过实战打磨的产品。升级后的Cloudera数据仓库版本提供了企业级混合云解决方案,包含了混合计算、混合存储、混合控制三大关键因素,专为实惠经济、强大可扩展的自助服务分析而构建。这款产品覆盖了数据仓库的整个生命周期,包括数据接入、存储、管理、查询、运行状况检查等等。 Cloudera数据仓库版本适用于以下三场景 ETL卸载:将ETL任务从EDW迁移到Cloudera大数据平台,极大的释放EDW处理能力。基于Hadoop大规模分布式的处理能力,ETL任务将以更快的速度运行,并为包括EDW在内的下游系统提供服务,使得之前错过的SLA成为历史。 自助BI和探索性分析:全面开放数据,所有部门的用户在其安全策略范围内都能自助访问全真数据。借助Read on Schema的灵活性和支持高并发的查询能力,开发人员和分析人员能够实现自助化数据探索,摆脱对IT部门的依赖,能最快的速度解决新问题。 EDW优化:通过Cloudera大数据平台释放EDW处理能力,您可以将EDW系统用于更加复杂的报表生成和热数据处理,在相当长的一段时间内都无需增加EDW存储或计算资源。 EDW和Cloudera大数据平台的混搭结构可以降低数据存储成本,提高数据处理和分析能力,充分发挥两套系统各自的技术优势。 Cloudera数据仓库版本的四大优势 前所未有的数据规模和灵活性:Cloudera提供单一、可扩展的平台,可以处理不同来源、不同类型的全量数据,以推动新的业务洞察。该版本专为Read on Schema功能而设计,可以快速访问贴源的全真数据,甚至支持实时更新。 (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |