• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

Spark集群配置

武飞扬头像
小龙在山东
帮助1

配置SSH

# Master
ssh-keygen -t rsa
cat /home/kali/.ssh/id_rsa.pub

# Worker
mkdir ~/.ssh
chmod 700 ~/.ssh
touch ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
vi ~/.ssh/authorized_keys

安装 OpenJDK 11

环境Ubuntu 16

# Add the repository
sudo add-apt-repository ppa:openjdk-r/ppa
# Update package list
sudo apt-get update
# Install openjdk-11-jdk
sudo apt install openjdk-11-jdk

安装Spark

sudo mkdir /opt/spark
cd /opt/spark
wget --no-check-certificate https://dlcdn.apache.org/spark/spark-3.1.3/spark-3.1.3-bin-hadoop2.7.tgz
sudo tar -xzvf spark-3.1.3-bin-hadoop2.7.tgz
sudo ln -s ./spark-3.1.3-bin-hadoop2.7 spark_latest
$ sudo vim ~/.profile
export SPARK_HOME=/opt/spark/spark_latest
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
$ source ~/.profile

配置hosts

vim /etc/hosts
192.168.174.128 host1
192.168.174.129 host2

配置Spark

Master

$ vim spark-defaults.conf
# node1是设备名
spark.master node1:7077

$SPARK_HOME/sbin/start-master.sh

学新通

Worker

vim conf/spark-env.sh
# 根据内存大小配置
SPARK_DRIVER_MEMORY=1000m
SPARK_EXECUTOR_MEMORY=512m
SPARK_WORKER_MEMORY=512m

$SPARK_HOME/sbin/start-worker.sh node0:7077

运行测试

MASTER=spark://node0:7077
$SPARK_HOME/bin/run-example org.apache.spark.examples.SparkPi

输出:

Pi is roughly 3.1404157020785104

运行 spark-shell

学新通
学新通

加载scala脚本

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}
import org.apache.spark.sql.Row
import org.apache.spark.sql.DataFrame

// 定义列表数据 seq
val seq: Seq[(String, Int)] = Seq(("Bob", 14), ("Alice", 18))
val rdd: RDD[(String, Int)] = sc.parallelize(seq)

// 定义并封装Schema
val schema:StructType = StructType( Array(
StructField("name", StringType),
StructField("age", IntegerType)
))

// createDataFrame 方法有两个形参,第一个参数正是 RDD,第二个参数是 Schema。
// rdd 转换为 RDD[Row]
val rowRDD: RDD[Row] = rdd.map(fileds => Row(fileds._1, fileds._2))

// 创建 DataFrame
val dataFrame: DataFrame = spark.createDataFrame(rowRDD,schema)


dataFrame.show

学新通

学新通

参考

https://github.com/scala/scala
http://jdk.java.net/archive/

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfjiibh
系列文章
更多 icon
同类精品
更多 icon
继续加载