Blog categories

Comments

[Spark] S3 파일 읽기

[Spark] S3 파일 읽기

Boto3 이용하여 s3 접근 클라이언트 생성

import boto3

# S3 클라이언트 생성
s3 = boto3.client(
    's3',
    aws_access_key_id="your_access_key",
    aws_secret_access_key="your_secret_key",
    endpoint_url="https://s3.your-region.amazonaws.com"  # Endpoint 지정
)

Boto3와 PySpark 사용하여 파일 읽기

from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder \
    .appName("Read Parquet Without ListObjects") \
    .config("spark.hadoop.fs.s3a.access.key", "your_access_key") \
    .config("spark.hadoop.fs.s3a.secret.key", "your_secret_key") \
    .config("spark.hadoop.fs.s3a.endpoint", "https://s3.amazonaws.com") \
    .getOrCreate()

# 개별 파일 경로를 지정하여 읽기
file_path = "s3a://your-bucket-name/path/to/your-file.parquet"
df = spark.read.parquet(file_path)
df.show()

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

div#stuning-header .dfd-stuning-header-bg-container {background-color: #3f3f3f;background-size: cover;background-position: top center;background-attachment: initial;background-repeat: no-repeat;}#stuning-header div.page-title-inner {min-height: 350px;}