和封神一起“深挖”Spark

  • 时间:
  • 浏览:2
  • 来源:大发5分排列5_极速5分排列3





大数据通常自上而下分为大数据产品、数据治理/作业生命周期、作业管理/作业流、分布式计算、分布式存储、分布式调度、硬件/机房七层。本次演讲的重点在于分布式计算层。

Spark Plus

下图展示的是自建ECS和EMP+OSS的terasort时间对比,这里自建ECS配置参数是1 master 4cpu 16g和8 Slave 4cpu 16g;EMR+OSS的参数是1 master 4cpu 16g和8 Slave 4cpu 16g。

E-MapReduce 是运行在阿里云平台上的开源大数据补救系统补救方案。它还可不能能 让用户将Apache Hadoop和Apache Spark等开源引擎运行在阿里云的云平台上,提供给用户在云上的分析和补救大数据的平台。亲戚亲戚朋友提供管控系统、运维系统及后续的专家系统帮用户补救自动化的问题,并提供专家服务帮助客户补救疑难杂症。

E-MapReduce大数据平台

 

Spark在云上的最佳实践是将存储与计算分离,下图展现了自建ECS和EMP+OSS的存储计算分离成本估算对比请况。

Spark 介绍

下图展示的是Spark的趋势,还可不能能 清楚地看了,在2012年至2013年间,Spark有了一4个很大的转折,在那前一天,阿里也在逐步使用Spark,到今天,Spark和Hadoop逐渐持平发展。

DB/MPP跟Hadoop引擎相对比,两者有很大的不同,具体差异参见下图。从硬件、容错、调度模型及衡量标准方面该人 都侧重一方面,对于事务性、index等,Hadoop引擎当前是不支持的。另外MPP我我真是也在跟Hadoop在融合,比如MPP on HDFS,Spark on DB也在实现。

其中,在ETL场景中,通过Spark SQL 、Spark API、Dataset实现图片、语音、视频等信息的在线/离线数据抽取、转化为形态化数据,便于后续分析补救。

下图展现了自建ECS和EMP+OSS的存储计算分离性能对照图,左边是ECS自建,右边是EMP+OSS。



演讲内容架构

完整的Spark链路如下图所示,主要包括SQL、RDD、Task、Thread。

关于分享者

其中弹性伸缩让Spark上大集群成为了要是;在Spark+存储格式中:1 TB数据的存储相对比文本节省了将近 75%;性能按照不同的query提高从几倍到数十倍不等。



 

Spark 提供 SQL、机器学习库 MLlib、流计算 Streaming 和图计算 Graphx,同時 也支持 Scala、Java、Python 和 R 语言开发的基于 API 的应用守护进程池池。下图显示的是Spark 1.0的基础架构。



  

2016云栖大会·北京峰会于89号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,来自阿里云技术专家曹龙(封神)为在场的听众带来《Deep dive into Spark》精彩分享。



下图是Spark 2.0的基础架构,对比于1.0,Spark 2.0主要聚焦于4个方面:(1)对标准的SQL支持。(2)统一的DataFrame和Dataset(逻辑执行计划)API。有点硬的前一天如果 的API都有基于Catalyst的。



常见的Spark puls有:Spark部署模式、Spark弹性伸缩、Spark+aliuxio(加速)、与业务系统融合(解耦,业务系统与大数据系统)、Spark+数据库服务、Spark+存储格式。

E-MapReduce产品的架构如下图所示:

演讲主要内容

  



曹龙,花名封神,专注在大数据领域,6年分布式引擎研发经验。先后研发上万台Hadoop、ODPS集群。先后负责阿里YARN、Spark及自主研发内存计算引擎。目前为广大公共云用户提供专业的Hadoop服务,即:E-mapreduce产品

在以时间、数据量的坐标抽上列出目前引擎大致擅长补救数据的坐标,应该还需用加进数据比较复杂度、成本等维度,还可不能能 更好的体现侧重点,这里不列出。那么哪个软件能补救所有的问题,能补救问题也是在一4个范围内,即使是spark、flink等。目前存在有意思的事情是:greenplum之类的MPP引擎想补救大数据的需求,hadoop等被定位为大数据的引擎也想补救小数据的问题(列式存储、要是也加入如果 索引)。图中右上角的想往左边靠,减少延迟,图中左下角的想往上方靠,增大能补救的数据量。

常见的Spark应用场景包括:ETL、机器学习、流式计算、即时查询。

从上图还可不能能 看出,Spark生态是E-MapReduce引擎的一要素,亲戚亲戚朋友还有支持了其它非常多的引擎,如在离线补救、在线流式、在线存储及交互式查询等各个方面。基于亲戚亲戚朋友过去如果 年在阿里内部管理的沉淀,在易用性、成本、性能、运维等各方面具有阿里开源大数据的技术能力,欢迎亲戚亲戚朋友使用。

Spark常见的问题包括卡住、内存溢出、GC频繁。

随着Spark 2.0的发布,Spark逐渐趋于心智心智早熟图片 图片 图片 ,未来Spark的发展方向:

Spark 在云上







Hadoop生态计算引擎目前包括:Hadoop MapReduce、Spark/Spark 2.0、TEZ、Flink等,这里从计算模型,该人 的特点分为了1G、2G、3G、3.8G、4G,分别代表其理论先守护进程池池度。Spark理论上并都有最先进的,要是目前来讲应该是最适合的。