• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

阿里 datax工具 impala 数据导入到mongo

武飞扬头像
xzp18247655294
帮助7

datax下载地址

1、解压datax

2、具体安装测试datax工具可以在网上进行查询。其对jdk python maven  都有版本的要求。需确认当前系统中的版本。datax安装以及测试方式

3、确认安装无误后,在安装目录下,或者安装目录的bin目录下新建一个json文件,文件名称自定义。新建的json文件格式(datax bin目录下执行python datax.py -r mysqlreader -w musqlwriter 命令可得到json文件的模板)

4、impala 导入输入到mongo 样例

  1.  
    {
  2.  
    "job": {
  3.  
    "content": [
  4.  
    {
  5.  
    //数据来源
  6.  
    "reader": {
  7.  
    "name": "hdfsreader",
  8.  
    "parameter": {
  9.  
    "path": "/user/hive/warehouse/***.db/***/*", // impala 数据库内存储的数据文件,最后的/* 表示将读取该目录下的所有文件,此处如果未修改库内文件的读写权限会报错。
  10.  
    "defaultFS": "hdfs://**.**.**.**:8022", // Hadoop HDFS文件系统namenode节点地址 个人理解 impala 访问地址与端口号
  11.  
    "column": [ // 读取字段列表,type指定源数据的类型,index指定当前列来自于文本第几列(以0开始)
  12.  
    {
  13.  
    "index": 0,
  14.  
    "type": "string"
  15.  
    }
  16.  
    ],
  17.  
    "hadoopConfig": { "dfs.data.transfer.protection": "integrity" }, //配置与Hadoop相关的一些高级参数,例如HA的配置
  18.  
    "haveKerberos": true, //是否有Kerberos认证,默认为false。例如用户配置为true,则配置项kerberosKeytabFilePath和kerberosPrincipal为必填。
  19.  
    "kerberosKeytabFilePath": "/home/keytab/impala.keytab", //Kerberos认证keytab文件的绝对路径。如果haveKerberos为true,则必选。
  20.  
    "kerberosPrincipal": "impala/hadoop01@HADOOP.COM", //Kerberos认证Principal名,如****/hadoopclient@**.*** 。如果haveKerberos为true,则必选。
  21.  
    "fileType": "text", // 数据文件类型 表示TextFile文件格式。还包括ORC、RC、SEQ、CSV和parquet 等格式
  22.  
    "encoding": "UTF-8", //读取文件的编码配置。
  23.  
    "fieldDelimiter": "\u0001" //读取的字段分隔符
  24.  
    }
  25.  
     
  26.  
    },
  27.  
     
  28.  
    // 数据导出 去处
  29.  
    "writer": {
  30.  
    "name": "mongodbwriter",
  31.  
    "parameter": { // 配置数据库相关信息
  32.  
    "address": [ // mongo 地址 集群
  33.  
    "***.***.***.***:****"
  34.  
    ],
  35.  
    "userName": "kafka", // 链接数据库用户名
  36.  
    "userPassword": "123456", // 链接数据库密码
  37.  
    "dbName": "kafka", //数据库名称
  38.  
    "collectionName": "tydm_0303_z", //数据库表名
  39.  
    "column": [ // mongo 内存储的 字段名与类型
  40.  
    {
  41.  
    "name":"tydm",
  42.  
    "type":"string"
  43.  
    }
  44.  
     
  45.  
    ],
  46.  
    "writeMode": {
  47.  
    "isReplace": "false",
  48.  
    "replaceKey": "_id"
  49.  
    }
  50.  
    }
  51.  
    }
  52.  
    }
  53.  
    ],
  54.  
    "setting": {
  55.  
    "speed": {
  56.  
    "channel": "1"
  57.  
    }
  58.  
    }
  59.  
    }
  60.  
    }
学新通

执行导入命令 : datax安全路径/bin datax.py  json文件目录

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfhcefk
系列文章
更多 icon
同类精品
更多 icon
继续加载