• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

添加spark的相关依赖和打包插件第六弹

武飞扬头像
发量不足
帮助2

学新通

目录

添加spark的相关依赖和打包插件

步骤1 打开pom.xmlà添加的以下依赖,点击右下角enable auto-import自动下载

步骤2 右击main下的Scala文件先创建一个package并命名为cn.itcast

步骤3 创建WordCount.scala文件用于词频统计  alt 回车:选择导入包

步骤3 创建WordCount.scala文件用于词频统计  alt 回车:选择导入包

注意:需要事先在D盘创建word文件夹下的words.txt里面内容如下:(最好不要用中文路径)

解决以上问题,运行结果如下


添加spark的相关依赖和打包插件

步骤1 打开pom.xmlà添加的以下依赖,点击右下角enable auto-import自动下载

  1.  
    <!--设置依赖版本号-->
  2.  
     
  3.  
       <properties>
  4.  
     
  5.  
        <scala.version>2.11.8</scala.version>
  6.  
     
  7.  
        <hadoop.version>2.7.1</hadoop.version>
  8.  
     
  9.  
        <spark.version>2.0.0</spark.version>
  10.  
     
  11.  
    </properties>
  12.  
     
  13.  
    <dependencies>
  14.  
     
  15.  
        <!--Scala-->
  16.  
     
  17.  
        <dependency>
  18.  
     
  19.  
        <groupId>org.scala-lang</groupId>
  20.  
     
  21.  
        <artifactId>scala-library</artifactId>
  22.  
     
  23.  
        <version>${scala.version}</version>
  24.  
     
  25.  
        </dependency>
  26.  
     
  27.  
    <!--Spark-->
  28.  
     
  29.  
        <dependency>
  30.  
     
  31.  
        <groupId>org.apache.spark</groupId>
  32.  
     
  33.  
        <artifactId>spark-core_2.11</artifactId>
  34.  
     
  35.  
        <version>${spark.version}</version>
  36.  
     
  37.  
        </dependency>
  38.  
     
  39.  
        <!--Hadoop-->
  40.  
     
  41.  
        <dependency>
  42.  
     
  43.  
        <groupId>org.apache.hadoop</groupId>
  44.  
     
  45.  
        <artifactId>hadoop-client</artifactId>
  46.  
     
  47.  
        <version>${hadoop.version}</version>
  48.  
     
  49.  
        </dependency>
  50.  
     
  51.  
    </dependencies>

添加完依赖后选择自动载入

学新通

步骤2 右击main下的Scala文件先创建一个package并命名为cn.itcast

学新通学新通

步骤3 创建WordCount.scala文件用于词频统计  alt 回车:选择导入包

问题:没有scala文件创建选项

学新通

解决方法:

学新通 学新通学新通

学新通

添加完插件包后即可:学新通

 学新通

步骤3 创建WordCount.scala文件用于词频统计  alt 回车:选择导入包

注意:需要事先在D盘创建word文件夹下的words.txt里面内容如下:(最好不要用中文路径)

学新通

package cn.itcast

# 导入包

  1.  
    import org.apache.spark.rdd.RDD
  2.  
    import org.apache.spark.{SparkConf, SparkContext}
  3.  
    object WordCount {
  4.  
    def main(args: Array[String]): Unit = {
  5.  
    //1.创建SparkConf对象,设置appName和Master地址
  6.  
    val sparkconf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
  7.  
    //2.创建SparkContext对象,它是所有任务计算的源头,它会创建DAGScheduler和TaskScheduler
  8.  
    val sparkContext = new SparkContext(sparkconf)
  9.  
    //设置日志级别
  10.  
    //sparkContext.setLogLevel("WARN")
  11.  
    //3.读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型
  12.  
    val data : RDD[String] = sparkContext.textFile("D:\\word\\words.txt")
  13.  
    //4.切分每一行,获取所有的单词
  14.  
    val words :RDD[String] = data.flatMap(_.split(" "))
  15.  
    //5.每个单词记为1,转换为(单词,1)
  16.  
    val wordAndOne :RDD[(String, Int)] = words.map(x =>(x,1))
  17.  
    //6.相同单词汇总,前一个下划线表示累加数据,后一个下划线表示新数据
  18.  
    val result: RDD[(String, Int)] = wordAndOne.reduceByKey(_ _)
  19.  
    //7.收集打印结果数据
  20.  
    val finalResult: Array[(String, Int)] = result.collect()
  21.  
    println(finalResult.toBuffer)
  22.  
    //8.关闭sparkContext对象
  23.  
    sparkContext.stop()
  24.  
    }
  25.  
    }

可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)

学新通

可能碰到的问题:

如果遇到运行结果报错或者结果没出来,则是没放Scala-sdk-2.11.8

解决方法:

学新通

 学新通

学新通

如果没有则需要手动添加:

学新通

学新通

学新通

解决以上问题,运行结果如下

可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)

学新通

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgaeahi
系列文章
更多 icon
同类精品
更多 icon
继续加载