Spark是加州大学伯克利分校AMP实验室( Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生 态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms) 、机器(Machines) 和人(Person) 三种之间通过大规模集成来展现大数据应用的一一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。
1、分析引擎:统的 对数据分析 Spark框架可以针对任何业务类型分析进行处理,比如SparkCore离线批处理、 SparkSQL交互式分析、SparkStreaming和StructuredStreamig流式处理及机器学习和图计算都可以完成。 2、大规模数据处理 面向海量数据进行分析处理
Spark处理数据时,将数据封装到集合DD中(RDD中有很多分区Partition) , 每个分区数据被1个Task处理。对于spark和Flink的每一个任务是一线程Thread方式运行的但是在MapReducede的,每一个task都是以process方式运行。线程的运行快鱼进程。
spark四大特点



1 读取数据:读取数据 封装数据到RDD集合中
2分析数据:调用的RDD中的函数(高阶函数 很多函数与scala集合中的高阶函数类似 例如flatMap map filtter……)
3输出数据:将最后的RDD的数据的保存到外部的数据库中。
Spark的提交程序将已经开发好的程序,并且在本地模式运行。需要将程序(Scala语言编写)打成jar包,提交运行至Standalone集群或者本地模式,类似MapReduce程序开发流程。
或者是的采用的是spark-submit
基本参数提交运行Spark Application时,有些基本参数需要传递值,
Driver Program参数配置每个Spark Application运行时都有一个Driver Program,属于一个JVM Process进程,可以设置内存Memory和CPU Core核数。
Executor参数配置每个Spark Application运行时,需要启动Executor运行任务Task,需要指定Executor个数及每个Executor资源信息(内存Memory和CPU Core核数)。