您当前的位置: 首页 >  大数据

庄小焱

暂无认证

  • 0浏览

    0关注

    805博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据云计算——Spark深入学习

庄小焱 发布时间:2020-10-30 16:00:51 ,浏览量:0

Spark全面的梳理学习 spark的概述 spark是什么

Spark是加州大学伯克利分校AMP实验室( Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生 态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms) 、机器(Machines) 和人(Person) 三种之间通过大规模集成来展现大数据应用的一一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。

1、分析引擎:统的       对数据分析       Spark框架可以针对任何业务类型分析进行处理,比如SparkCore离线批处理、 SparkSQL交互式分析、SparkStreaming和StructuredStreamig流式处理及机器学习和图计算都可以完成。 2、大规模数据处理        面向海量数据进行分析处理

Spark处理数据时,将数据封装到集合DD中(RDD中有很多分区Partition) , 每个分区数据被1个Task处理。对于spark和Flink的每一个任务是一线程Thread方式运行的但是在MapReducede的,每一个task都是以process方式运行。线程的运行快鱼进程。

spark四大特点

spark框架的模块

Spark的运行模式

Spark的快速入门的

 大数据的分析的流程:

1 读取数据:读取数据 封装数据到RDD集合中

2分析数据:调用的RDD中的函数(高阶函数 很多函数与scala集合中的高阶函数类似 例如flatMap map filtter……)

3输出数据:将最后的RDD的数据的保存到外部的数据库中。

Spark的提交程序

将已经开发好的程序,并且在本地模式运行。需要将程序(Scala语言编写)打成jar包,提交运行至Standalone集群或者本地模式,类似MapReduce程序开发流程。

或者是的采用的是spark-submit

基本参数

提交运行Spark Application时,有些基本参数需要传递值,

Driver Program参数配置

每个Spark Application运行时都有一个Driver Program,属于一个JVM Process进程,可以设置内存Memory和CPU Core核数。

 Executor参数配置

每个Spark Application运行时,需要启动Executor运行任务Task,需要指定Executor个数及每个Executor资源信息(内存Memory和CPU Core核数)。

关注
打赏
1657692713
查看更多评论
立即登录/注册

微信扫码登录

0.0416s