[Spark] AWS S3에 저장된 parquet 파일을 spark에서 읽기

byRony

2025-01-14 0 Comments 190 Views2 Likes

Spark

[Spark] AWS S3에 저장된 parquet 파일을 spark에서 읽기

2025-01-14in Spark 0 Comments 2 Likes

Boto3 이용하여 s3 접근 클라이언트 생성

import boto3

# S3 클라이언트 생성
s3 = boto3.client(
    's3',
    aws_access_key_id="your_access_key",
    aws_secret_access_key="your_secret_key",
    endpoint_url="https://s3.your-region.amazonaws.com"  # Endpoint 지정
)

Boto3와 PySpark 사용하여 파일 읽기

from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder \
    .appName("Read Parquet Without ListObjects") \
    .config("spark.hadoop.fs.s3a.access.key", "your_access_key") \
    .config("spark.hadoop.fs.s3a.secret.key", "your_secret_key") \
    .config("spark.hadoop.fs.s3a.endpoint", "https://s3.amazonaws.com") \
    .getOrCreate()

# 개별 파일 경로를 지정하여 읽기
file_path = "s3a://your-bucket-name/path/to/your-file.parquet"
df = spark.read.parquet(file_path)
df.show()

2 Likes

답글 남기기

Click here to cancel reply.

Blog categories

Comments

[Spark] AWS S3에 저장된 parquet 파일을 spark에서 읽기

[Spark] AWS S3에 저장된 parquet 파일을 spark에서 읽기

about me

LASTEST POSTS

CATEGORY

TAGS