• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

Spark Scala/Java调用Python算法文件

武飞扬头像
任性的小映
帮助1

1.Windows本地调用

1.1python算法库环境安装

        python算法中会调用许多额外的其它第三方库,使用pip install xxx安装时会经常因为一些原因(如网络延迟)导致安装失败,这时候可以安装Anaconda3来解决这个问题(Anaconda里面包含了大多数python用到的算法库如numpy、pandas等),下载地址https://www.anaconda.com/products/individual#linux

        安装完成后,配置环境变量,一共有两个,添加到PATH里面,一个是python地址(E:\software\Anaconda3),一个是python算法库路径(E:\software\Anaconda3\Scripts),配置完成后重启电脑生效,可以用简单python算法文件验证一下;

1.2调用代码编写

      接着在IDEA的plugins中添加python的插件,编写Scala或Java程序就可以调用了,调用代码如下:

  1.  
    package com.hy.model.action
  2.  
     
  3.  
    import com.hy.model.util.StringUtils
  4.  
    import org.apache.hadoop.fs.{FileSystem, Path}
  5.  
    import org.apache.spark.deploy.PythonRunner
  6.  
    import org.apache.spark.sql.SparkSession
  7.  
     
  8.  
    object PythonApplication {
  9.  
    def main(args: Array[String]) {
  10.  
    /* val modelPath = args(0)
  11.  
    val pyFiles = args(1)*/
  12.  
    val modelPath = "F:\\projectCode\\spark-model\\src\\main\\resources\\Health_singlePV_v1.3.py"
  13.  
    val pyFiles = "Health_singlePV_v1.3.py"
  14.  
    val ss = SparkSession
  15.  
    .builder()
  16.  
    .config("spark.executorEnv.PYSPARK_PYTHON","python3")
  17.  
    .config("spark.yarn.appMasterEnv.PYSPARK_PYTHON","python3")
  18.  
    .appName("RunPythonExample")
  19.  
    .master("local[2]")
  20.  
    .getOrCreate()
  21.  
     
  22.  
     
  23.  
    /**
  24.  
    * 因为spark 仅仅支持本地支持python文件,所以在每次运行python文件时,需要将hdfs中的python文件先拉到本地临时目录下,等任务结束后删除该文件
  25.  
    */
  26.  
    val context = ss.sparkContext
  27.  
     
  28.  
    //val fileSystem = FileSystem.get(context.hadoopConfiguration)
  29.  
     
  30.  
    val modelFSpath = new Path(modelPath)
  31.  
    val local = "/tmp" modelPath
  32.  
    println("local: " local)
  33.  
    val localPath = new Path(local)
  34.  
    // fileSystem.copyToLocalFile(false, modelFSpath, localPath, true)
  35.  
     
  36.  
    runPython(modelPath, pyFiles)
  37.  
     
  38.  
     
  39.  
    ss.stop()
  40.  
    }
  41.  
     
  42.  
    def runPython(pyFilePath: String, pyFiles: String): Unit = {
  43.  
    val inputPath = "-i /input"
  44.  
    val outputPath = "-o /output"
  45.  
    PythonRunner.main(Array(pyFilePath, pyFiles, inputPath, outputPath))
  46.  
    }
  47.  
     
  48.  
    }
学新通

2.Linux服务器调用

        根据上面Anaconda网址下载linux版本的安装包(是一个大的.sh文件),使用命令bash Anaconda.xxx.sh命令安装,根据提示输入安装指令,最后将python地址添加到环境变量里面,如下:

PATH=$PATH:$HOME/bin:/opt/soft/anaconda3/bin

      然后将上面的spark程序打成jar包,执行spark程序即可调用。

学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgabgag
系列文章
更多 icon
同类精品
更多 icon
继续加载