Scala
1、下载Scala并将其解压到/usr/local目录下面:
记得修改其拥有者为当前用户km 2、修改/etc/profile文件,在其中加入如下命令:
3、刷新:
4、将scala-2.12.8复制到其它两个虚拟机上,并在其它两个虚拟机上分别设置类路径
Spark集群安装配置
- 下载Scala并将其解压到/usr/local目录下面:
记得修改其拥有者为当前用户km 2. 修改/etc/profile文件,在其中加入如下命令:
-
刷新:
-
进入 Spark 安装目录下的 conf 目录,拷贝 spark-env.sh.template到 spark-env.sh。cp spark-env.sh.template spark-env.sh。编辑 spark-env.sh,在其中添加以下配置信息:
- SCALA_HOME:指定 Scala 安装目录;
- JAVA_HOME:指定 Java 安装目录;
- SPARK_MASTER_IP:指定 Spark 集群 master 节点的 IP 地址;
- SPARK_WORKER_MEMORY: 指 定 的 是 Worker(Slave) 节 点 能 够 分 配 给Executors 的最大内存大小;
- HADOOP_CONF_DIR:指定 Hadoop 集群配置文件目录。
-
将 slaves.template 拷贝到 slaves, 编辑其内容为:
-
将配置好的spark文件复制到Slave1和Slave2节点。
- 修改kmslave1和kmslave2的spark-env.sh,将export SPARK_LOCAL_IP=114.55.246.88改成Slave1和Slave2对应节点的IP。
- 首先启动Hadoop
- 在Master节点启动集群。 第一步:在 master 节点上运行 start-master.sh,结果如下:
可以看到 master 上多了一个新进程 Master。 第二步:在 master 节点上启动 worker(这里即为 slave),运行 start-slaves.sh,结果如下:
可以看到,多了一个 Worker 进程。 也可以一次全部启动:
- 验证启动效果。 前台界面查看 Spark 集群信息。浏览器中输入 http://kmmaster:8088 , 如下图:
正确显示该界面,则启动成功
运行 spark-shell,可以进入 Spark 的 shell 控制台,如下:
实现一:
实现二: