Spark Scala/Java调用Python算法文件
1.Windows本地调用
1.1python算法库环境安装
python算法中会调用许多额外的其它第三方库,使用pip install xxx安装时会经常因为一些原因(如网络延迟)导致安装失败,这时候可以安装Anaconda3来解决这个问题(Anaconda里面包含了大多数python用到的算法库如numpy、pandas等),下载地址https://www.anaconda.com/products/individual#linux。
安装完成后,配置环境变量,一共有两个,添加到PATH里面,一个是python地址(E:\software\Anaconda3),一个是python算法库路径(E:\software\Anaconda3\Scripts),配置完成后重启电脑生效,可以用简单python算法文件验证一下;
1.2调用代码编写
接着在IDEA的plugins中添加python的插件,编写Scala或Java程序就可以调用了,调用代码如下:
-
package com.hy.model.action
-
-
import com.hy.model.util.StringUtils
-
import org.apache.hadoop.fs.{FileSystem, Path}
-
import org.apache.spark.deploy.PythonRunner
-
import org.apache.spark.sql.SparkSession
-
-
object PythonApplication {
-
def main(args: Array[String]) {
-
/* val modelPath = args(0)
-
val pyFiles = args(1)*/
-
val modelPath = "F:\\projectCode\\spark-model\\src\\main\\resources\\Health_singlePV_v1.3.py"
-
val pyFiles = "Health_singlePV_v1.3.py"
-
val ss = SparkSession
-
.builder()
-
.config("spark.executorEnv.PYSPARK_PYTHON","python3")
-
.config("spark.yarn.appMasterEnv.PYSPARK_PYTHON","python3")
-
.appName("RunPythonExample")
-
.master("local[2]")
-
.getOrCreate()
-
-
-
/**
-
* 因为spark 仅仅支持本地支持python文件,所以在每次运行python文件时,需要将hdfs中的python文件先拉到本地临时目录下,等任务结束后删除该文件
-
*/
-
val context = ss.sparkContext
-
-
//val fileSystem = FileSystem.get(context.hadoopConfiguration)
-
-
val modelFSpath = new Path(modelPath)
-
val local = "/tmp" modelPath
-
println("local: " local)
-
val localPath = new Path(local)
-
// fileSystem.copyToLocalFile(false, modelFSpath, localPath, true)
-
-
runPython(modelPath, pyFiles)
-
-
-
ss.stop()
-
}
-
-
def runPython(pyFilePath: String, pyFiles: String): Unit = {
-
val inputPath = "-i /input"
-
val outputPath = "-o /output"
-
PythonRunner.main(Array(pyFilePath, pyFiles, inputPath, outputPath))
-
}
-
-
}
2.Linux服务器调用
根据上面Anaconda网址下载linux版本的安装包(是一个大的.sh文件),使用命令bash Anaconda.xxx.sh命令安装,根据提示输入安装指令,最后将python地址添加到环境变量里面,如下:
PATH=$PATH:$HOME/bin:/opt/soft/anaconda3/bin
然后将上面的spark程序打成jar包,执行spark程序即可调用。
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhgabgag
系列文章
更多
同类精品
更多
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01 -
怎样阻止微信小程序自动打开
PHP中文网 06-13