PySpark 教程: 01 读取压缩的 gzip 文件教程含源码

武飞扬头像

iCloudEnd

2024-05-09 帮助1人

Spark 原生支持将压缩的 gzip 文件直接读取到数据帧中。我们必须相应地指定压缩选项才能使其工作。

但是，有一个问题。Spark 仅使用单个内核来读取整个 gzip 文件，因此没有分发或并行化。如果 gzip 文件较大，可能会出现内存不足错误。

让我们用一个例子来检查一下。我们将阅读 sales.csv.gz 文件

# Read zipped file directly from Spark
df_zipped = spark \
    .read \
    .format("csv") \
    .option("compression", "gzip") \
    .option("header", True) \
    .load("dataset/tmp/sales.csv.gz")
df_zipped.printSchema()

这篇好文章是转载于：学新通技术网

版权申明：本站部分内容来自互联网，仅供学习及演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，请提供相关证据及您的身份证明，我们将在收到邮件后48小时内删除。
本站站名：学新通技术网
本文地址： /boutique/detail/tanhhackjg

系列文章

同类精品

继续加载