您当前的位置: 首页 > 

段智华

暂无认证

  • 0浏览

    0关注

    1232博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

第11课: 彻底解密WordCount运行原理

段智华 发布时间:2017-05-22 07:32:07 ,浏览量:0

第11课: 彻底解密WordCount运行原理

本节彻底解析wordcount运行原理:

1,从数据流动视角解密WordCount,使用Spark作单词计数统计,数据到底是怎么流动的。

2,从RDD依赖关系的视角解密WordCount。Spark中的一切操作都是RDD,后面的RDD对前面的RDD有依赖关系。

3,DAG与血统Lineage的思考。

接下来我们讲解运行wordcount程序。首先建立一个文本文件helloSpark.txt,将文本文件放到文件目录data/wordcount/里面,helloSpark.txt的文本内容如下:

1.         Hello Spark Hello Scala

2.         Hello Hadoop

3.         Hello Flink

4.         Spark is Awesome

 

我们在IDEA中编写wordcount.scala的代码如下:

1.          package com.dt.spark.sparksql

2.         importorg.apache.spark.SparkConf

3.         import org.apache.spark.SparkContext

4.         import org.apache.spark.rdd.RDD

5.         /**

6.           * 使用Scala开发本地测试的SparkWordCount程序

7.           * @author DT大数据梦工厂

8.           * 新浪微博:http://weibo.com/ilovepains/

9.           */

关注
打赏
1659361485
查看更多评论
立即登录/注册

微信扫码登录

0.0404s