Spark是什么?

        Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。 尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark可用来构建大型的、低延迟的数据分析应用程序。

Spark 集群计算架构

        虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟。 Spark 还引进了名为弹性分布式数据集(RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建。重建部分数据集的过程依赖于容错机制,该机制可以维护 "血统"(即允许基于数据衍生过程重建部分数据集的信息)。RDD 被表示为一个 Scala 对象,并且可以从文件中创建它;一个并行化的切片(遍布于节点之间);另一个 RDD 的转换形式;并且最终会彻底改变现有 RDD 的持久性,比如请求缓存在内存中。 Spark 中的应用程序称为驱动程序,这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似,Spark 支持单节点集群或多节点集群。对于多节点操作,Spark 依赖于 Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。

名师视频
×
*姓名:
*手机:
*邮箱:
同意《光环大数据用户协议》
注册后联系客服验证信息,领取相关优惠及资料

学大数据胜任什么工作

学大数据,所有高薪职位一网打尽!

互联网高薪直招大数据职位

携光环15年项目管理培训经验与全球Hadoop第一厂商Cloudera战略合作打造中国大数据黄埔军校,产出大数据高端人才!

  • 大数据开发工程师

    职位诱惑:弹性工作、岗位升级快、薪资高 月薪:15K-35K

  • 大数据构架师

    职位诱惑:弹性工作、岗位升级快、薪资高 月薪:15K-20K

  • 大数据算法工程师

    职位诱惑:弹性工作、岗位升级快、薪资高 月薪:15K-30K

  • 大数据开发工程师

    职位诱惑:弹性工作、岗位升级快、薪资高 月薪:20K-30K

  • Hadoop开发工程师

    职位诱惑:弹性工作、岗位升级快、薪资高 月薪:10K-20K

就业明星
  • 百度
    大数据开发工程师
    月薪:20K
  • 光线传媒
    大数据分析师
    月薪:15K
  • EVISION
    大数据分析师
    月薪:18K
咨询开班详情
TEL:010-84675977

大数据开发详细课程内容

特别说明:全行业只有光环大数据就业所向披靡!!!讲授最流行的《真正大数据》,而不是讲《JAVA/PHP大数据》或者《数据库大数据》,
别人不能讲的我们讲,别人能讲的我们讲得更深入。教研中心引进多重实战项目,旨在提高学员实战能力,这就是我们做大数据的态度!
国内首家针对在职人员的大数据培训课程
姓名:*
电话:*
邮箱:*