大数据技术栈:SparkJSON字符串处理

1|{"dept":{"describe":"主要负责招生，教学，就业等一系列学校事务","name":"学术部"},"email":"gree@edu.cn","id":79,"name":"gree","stus":[{"grade":"accp","id":1212,"name":"zs","school":{"address":"安德门","leader":"老吴","name":"南京中博"}},{"grade":"bigdata","id":4321,"name":"ww","school":{"address":"安德门3","leader":"老吴3","name":"南京中博3"}},{"grade":"yjs","id":9086,"name":"zq","school":{"address":"安德门2","leader":"老吴2","name":"南京中博2"}}],"tel":"15850500365"}

实操

1 获取SparkSession并导入functions和types包

// 1 获取SparkSession并导入functions和types包
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("jsonStuOpLog")
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
val sc: SparkContext = spark.sparkContext
import spark.implicits._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

2 构造数据源

// 2 构造数据源
val optionRDD: RDD[String] = sc.textFile("in/teacherinfo.txt")
optionRDD.foreach(println)

3 用map将字符串按"|"分割为"id"和"value"

// 3 用map将字符串按"|"分割为"id"和"value"
val option1: RDD[(String, String)] = optionRDD.map(x => {
val arr = x.split('|');
(arr(0), arr(1))
})
option1.foreach(println)
val jsonStrDF: DataFrame = option1.toDF("id", "value")
jsonStrDF.printSchema()
jsonStrDF.show(false)

学新通

4 使用get_json_object将"value"中的字符串拆分并重命名

// 4 使用get_json_object将"value"中的字符串拆分并重命名
val jsonobj: DataFrame = jsonStrDF.select($"id",
get_json_object($"value", "$.dept").as("dept"),
get_json_object($"value", "$.email").as("email"),
get_json_object($"value", "$.id").as("Tid"),
get_json_object($"value", "$.name").as("Tname"),
get_json_object($"value", "$.stus").as("stus"),
get_json_object($"value", "$.tel").as("tel")
)
jsonobj.printSchema()
jsonobj.show()

学新通

5 使用get_json_object将jsonobj中的dept继续拆分并重命名

// 5 使用get_json_object将jsonobj中的dept继续拆分并重命名
val jsonobj1: DataFrame = jsonobj.select($"id"
, get_json_object($"dept", "$.describe").as("describe"),
get_json_object($"dept", "$.name").as("Dname"),
$"email", $"Tid", $"Tname", $"stus",$"tel")
jsonobj1.printSchema()
jsonobj1.show()

学新通

6 对stus中的字符串进行炸裂，拆分为3条数据

// 6 对stus中的字符串进行炸裂，拆分为3条数据
val fields: List[StructField] = StructField("grade",StringType)::
StructField("id",IntegerType)::
StructField("name",StringType)::
StructField("school",StringType)::Nil
val jsonobj2: DataFrame = jsonobj1.select($"id", $"describe", $"Dname", $"email", $"Tid", $"Tname", from_json($"stus", ArrayType(StructType(fields))).as("stust"),$"tel")
jsonobj2.show(false)
val jsonobj3: DataFrame = jsonobj2.withColumn("stust", explode($"stust"))
val jsonobj4: DataFrame = jsonobj3.withColumn("grade", $"stust.grade")
.withColumn("Sid", $"stust.id")
.withColumn("name", $"stust.name")
.withColumn("school", $"stust.school")
.drop("stust")
jsonobj4.printSchema()
jsonobj4.show(false)

学新通

7 使用get_json_object对school列中的数据进行拆分得到最终处理结果

// 7 使用get_json_object对school列中的数据进行拆分
val jsonobj5: DataFrame = jsonobj4.select($"id", $"describe", $"Dname", $"email", $"Tid", $"Tname", $"tel", $"grade", $"name"
, get_json_object($"school", "$.address").as("address")
, get_json_object($"school", "$.leader").as("leader")
, get_json_object($"school", "$.name").as("SCname"))
jsonobj5.printSchema()
jsonobj5.show(false)

学新通

8 处理结果写入mysql数据库

// 8 写入mysql数据库
jsonobj5.write.mode(SaveMode.Append).jdbc(JdbcUtils.url,"teacher",properties)

学新通

这篇好文章是转载于：学新通技术网

大数据技术栈:SparkJSON字符串处理

前言

实操

1 获取SparkSession并导入functions和types包

2 构造数据源

3 用map将字符串按"|"分割为"id"和"value"

4 使用get_json_object将"value"中的字符串拆分并重命名

5 使用get_json_object将jsonobj中的dept继续拆分并重命名

6 对stus中的字符串进行炸裂，拆分为3条数据

7 使用get_json_object对school列中的数据进行拆分得到最终处理结果

8 处理结果写入mysql数据库

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开