加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 运营中心 > 网站设计 > 佳作 > 正文

英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

发布时间:2016-10-29 11:07:26 所属栏目:佳作 来源:ZC
导读:副标题#e# 在物联网和大数据时代,如何将物联网和终端的数据分析进行更多的结合?怎样实现数据收集和商业决定的实时结合?怎么样提升机器学习模块的可扩展性,更快的缩短机器学习的周期?如何把大数据平台和最终机器学习模块无缝结合?种种这些,都是企业面临的
副标题[/!--empirenews.page--]

在物联网和大数据时代,如何将物联网和终端的数据分析进行更多的结合?怎样实现数据收集和商业决定的实时结合?怎么样提升机器学习模块的可扩展性,更快的缩短机器学习的周期?如何把大数据平台和最终机器学习模块无缝结合?种种这些,都是企业面临的困惑和必须解决的难题。在英特尔&Cloudera数据分析媒体沟通会上,笔者有幸采访了英特尔公司软件与服务事业部副总裁/系统技术和优化部门大数据技术总监马子雅女士,并针对这些问题进行提问和交流。

英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

一、英特尔硬件技术让大数据机组性能提高7倍

众所周知,大数据的发展速度非常快,越来越多的企业开始利用大数据获取商业价值。在谈到大数据发展过程中遇到的难题时,马子雅女士表示,大数据是未来最有希望的一个产业,目前90%的数据量都是过去两三年时间产生的,到2020年有500亿互联设备,会产生10000 GB的数据量。

随着物联网和大数据的发展,客户已经不再满足于只是有一个终端的分析应用的解决方案,怎么样实时的把数据收集和最终的需求更好地实时的结合在一块儿,这是未来的发展趋势。谈到挑战,马子雅女士认为,一个是原始数据的收集和海量数据的收集,怎么样能进行实时的分析?另外一个是什么样的数据在客户端,什么样的数据到数据中心进行实时的分析处理?英特尔在大数据方面已经做了很多年,最终目标是希望任何大数据用户能够在英特尔的平台上获得最好的数据洞察力,实现最快最便捷的数据分析速度。为了实现这一目标,英特尔在硬件方面做了很多的创新。

英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

她表示,在硬件上英特尔无论是从网络、存储还是运算等各个方面,对很多的大数据项目进行了优化,保证他们能够在英特尔的平台上实现性能的大幅度提升。过去几个月,英特尔推出了至强E7 v4处理器,它是进行实时分析最快的处理器。此外,还推出了至强E5 v4,它能够使大数据的机组非常容易得扩展开来。除了处理器之外,英特尔推出了存储的3D XPoint,这是最新的非易失性存储技术,性能提升相当明显。马子雅女士表示,客户通过迁移到新一代英特尔的硬件技术上,大数据的机组性能能够整整提高7倍。

马子雅女士还通过一个案例对英特尔硬件性能进行了详细的介绍。中国比较大的互联网公司已经部署了大的Spark机组,我们只需要在他们原有硬盘的基础上,为每个服务器加上一个英特尔的SSD的存储,整个机组性能可以提升20%。在此基础上,我们又开发部署了Hierarchical storage management Solution,层次性存储软件,可以再次提升大数据机组性能,最后使得整个性能提升达到70%。最终,这个客户以比较低的成本取得了类似于内存缓存的性能。

  二、英特尔把大部分源代码都贡献给了开源

谈到硬件的发展对于大数据的软件、对于大数据的生态系统能带来什么帮助呢?马子雅女士表示,大数据领域受开源影响比较大,无论是Hadoop生态系统还是Spark生态系统,受到开源的影响力很大。在过去几年时间里,英特尔与开源做了很多合作,最近也推出了一些开源项目,比如TAP,Trusted Analytics Platform,它是用来加速基于云的分析应用程序的开发。

英特尔做这些工作是希望看到大数据的用户能够在英特尔的平台上有非常好的用户体验,包括从分析应用、到机器学习都能够有比较好的用户体验。所以我们和很多业界同行、客户有很多的合作关系,比如从Hadoop相关的项目、Spark相关的项目、包括SQL,包括存储、云结合方面都做了很多工作,重点是添加性能、改善它的稳定性、可扩展性、提升性能、提升数据的保护等等。在机器学习方面,尤其是帮助客户扩大机器学习模块的可扩展性方面,达到10倍至70倍,并且可以缩短机器学习的周期达到8倍。另外,英特尔把大部分源代码都贡献给了开源。

英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

马子雅女士表示,在传统的Hadoop里面,我们为了恢复可能的数据丢失或者数据故障,通常把每个数据块存储三次,这就直接带来了多于200%的存储消耗。英特尔和Cloudera在开源共同主导开发了一个项目HDFS Erasure Coding,就是删除编码这个项目。这个项目可以把存储成本降低整整一半,并且把编码器、解码器的性能提升30倍,即使和新的JAVA解码器和编码器相比性能也提升了6倍,主要是利用了英特尔硬件了的硬件指令AVX、AVX2、SSE以及在此基础上优化的存储加速库。

三、硬件和数据平台最终为了应用

谈及英特尔未来一段的软件研发投入是否主要倾向于至强融核(Xeon Phi)平台,马子雅女士表示,英特尔目前大部分工作都在至强平台上,随着深度学习、机器学习在大数据分析应用领域占的比重越来越大,英特尔在过去两年的时间里更多的人员投入到这方面的研发,包括软件和硬件我们都放了很多,比如说至强融核(Xeon Phi),这是一个主要的硬件趋势。另外就是FPGA,英特尔刚刚收购了Altara,这是一个大手笔的投资,是重要的机器学习的平台,我们会争取让它们有统一接口。另外,我们希望用户在原来跑深度学习、机器学习在至强上,可以无缝的放在至强融核(Xeon Phi)、FPGA上,这都是未来努力的方向。

英特尔马子雅:硬件和数据平台最终为了应用,为了数据分析

关于目前很多大数据公司提到的大数据性能已经做到了怎样的一个状态,马子雅女士表示,大数据的基准测试的标准化是非常重要的一个方向,英特尔在这方面引领了业界的基准测试的标准化,尤其是制定了Big Bench、High Bench的测试标准,我们希望通过这样的标准帮助业界更精准的了解大数据在微观以及端到端的性能。

她强调,无论是硬件还是数据平台,最终还是为了应用,为了做数据分析。在分析应用方面,英特尔跟很多的客户和合作伙伴进行了合作,加速他们的分析应用,包括机器学习在英特尔平台上的部署。例如零售行业通过机器学习对客流行为做出一些分析,为未来做一些预测。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读