• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

PySpark 教程: 01 读取压缩的 gzip 文件教程含源码

武飞扬头像
iCloudEnd
帮助1

Spark 原生支持将压缩的 gzip 文件直接读取到数据帧中。我们必须相应地指定压缩选项才能使其工作。

但是,有一个问题。Spark 仅使用单个内核来读取整个 gzip 文件,因此没有分发或并行化。如果 gzip 文件较大,可能会出现内存不足错误。

让我们用一个例子来检查一下。我们将阅读 sales.csv.gz 文件

# Read zipped file directly from Spark
df_zipped = spark \
    .read \
    .format("csv") \
    .option("compression", "gzip") \
    .option("header", True) \
    .load("dataset/tmp/sales.csv.gz")
df_zipped.printSchema()

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhhackjg
系列文章
更多 icon
同类精品
更多 icon
继续加载