spark udf 和 dataframe连用
示例场景:
将dataframe中非法字符替代为 null 类型,方便后续空值填充
-
object Test {
-
def main(args: Array[String]): Unit = {
-
val spark = SparkSession.builder().master("local[*]").appName("function").getOrCreate()
-
import spark.implicits._
-
-
val df = spark.createDataFrame(Seq(
-
(1, "a"),
-
(2, "??"),
-
(3, "nullnull"))).toDF("Id", "x4")
-
-
val p: Pattern = Pattern.compile("(?i)(\\s|null|nan|\\?)*")
-
-
val nullTrans: String => String = (s:String) =>{ //定义函数,观察注意3个符号,=>的左右是函数参数与函数体,= 右边是函数,:后边是类型
-
if(s == null || p.matcher(s).matches()){
-
null
-
}else{
-
s
-
}
-
}
-
-
val nullTransFunc = udf(nullTrans)//udf使用
-
-
def nullTransData(data:DataFrame) ={
-
var df = data
-
val cols: Array[String] = df.columns
-
val schema1 = df.schema
-
cols.foreach{
-
col =>{
-
val dtype = schema1(col).dataType
-
dtype match {
-
case StringType =>
-
df = df.withColumn(col,nullTransFunc(df(col)))//withColumn(列名1,函数名(df(列名2))),而且列名2中的每个元素类型是函数
-
//的输入类型
-
case _ =>
-
}
-
-
}
-
-
}
-
df
-
}
-
nullTransData(df).show()
-
// --- ----
-
//| Id| x4|
-
// --- ----
-
//| 1| a|
-
//| 2|null|
-
//| 3|null|
-
// --- ----
-
-
}
-
}
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhgacjfi
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13