第11课: 彻底解密WordCount运行原理
本节彻底解析wordcount运行原理:
1,从数据流动视角解密WordCount,使用Spark作单词计数统计,数据到底是怎么流动的。
2,从RDD依赖关系的视角解密WordCount。Spark中的一切操作都是RDD,后面的RDD对前面的RDD有依赖关系。
3,DAG与血统Lineage的思考。
接下来我们讲解运行wordcount程序。首先建立一个文本文件helloSpark.txt,将文本文件放到文件目录data/wordcount/里面,helloSpark.txt的文本内容如下:
1. Hello Spark Hello Scala
2. Hello Hadoop
3. Hello Flink
4. Spark is Awesome
我们在IDEA中编写wordcount.scala的代码如下:
1. package com.dt.spark.sparksql
2. importorg.apache.spark.SparkConf
3. import org.apache.spark.SparkContext
4. import org.apache.spark.rdd.RDD
5. /**
6. * 使用Scala开发本地测试的SparkWordCount程序
7. * @author DT大数据梦工厂
8. * 新浪微博:http://weibo.com/ilovepains/
9. */