Boto3 이용하여 s3 접근 클라이언트 생성
import boto3
# S3 클라이언트 생성
s3 = boto3.client(
's3',
aws_access_key_id="your_access_key",
aws_secret_access_key="your_secret_key",
endpoint_url="https://s3.your-region.amazonaws.com" # Endpoint 지정
)
Boto3와 PySpark 사용하여 파일 읽기
from pyspark.sql import SparkSession
# SparkSession 생성
spark = SparkSession.builder \
.appName("Read Parquet Without ListObjects") \
.config("spark.hadoop.fs.s3a.access.key", "your_access_key") \
.config("spark.hadoop.fs.s3a.secret.key", "your_secret_key") \
.config("spark.hadoop.fs.s3a.endpoint", "https://s3.amazonaws.com") \
.getOrCreate()
# 개별 파일 경로를 지정하여 읽기
file_path = "s3a://your-bucket-name/path/to/your-file.parquet"
df = spark.read.parquet(file_path)
df.show()
