ETL - YA-Hwang 기술 블로그

PySpark Structured Streaming 기본 + 모니터링 (with spark-operator)

PySpark Structured Streaming 기본 사용법을 간단하게 정리한다. spark-operator로 배포하는 SparkApp...

2025/07/02 # ETL pyspark streaming

Pyspark에서 AWS S3 데이터 읽기 (2025)

Pyspark에서 AWS S3 데이터를 읽는 방법을 간단히 정리한다. Spark 3.5.3 버전을 기준으로 작성되었다. ...

2025/06/18 # ETL spark s3

Apache Sedona로 Spark에서 geospatial 데이터 처리하기

Apache Sedona를 활용하여 Spark에서 geospatial 데이터를 처리하는 방법을 간단하게 정리한다. 개요 기존에는 Athe...

2025/06/08 # ETL spark sedona

Vector aggregator 간단한 성능 확인 ( with k8s )

Vector aggregator를 consumer로 사용했을 때 성능을 간단히 확인해본다. Vector by datadog 사용기 ( wi...

2025/01/31 # Dev # ETL vector k8s grafana

Vector by datadog 사용기 ( with k8s )

Vector by datadog 사용한 후기를 간단히 정리한다. Vector는 A lightweight, ultra-fast tool fo...

2024/12/29 # Dev # ETL vector k8s

pandas보다 빠르게 데이터 저장하기

pandas보다 데이터를 빠르게 저장하는 법에 대해 간단히 정리한다. pandas를 편해서 사용하다 보니 생각보다 I/O 작업에 시간이 오...

2024/10/07 # Dev # ETL duckdb polars pyarrow

Athena에서 Apache Iceberg 테이블 활용하기(2)

Athena에서 Apache Iceberg 테이블 활용하는 법에 대해 간단히 정리한다. TIME TRAVEL & ROLLBACK ...

2024/09/03 # Dev # ETL Athena Iceberg

Athena에서 Apache Iceberg 테이블 활용하기(1)

Athena에서 Apache Iceberg 테이블 활용하는 법에 대해 간단히 정리한다. Apache Iceberg는 The open tab...

2024/07/31 # Dev # ETL Athena Iceberg

aws-sdk-pandas Lambda로 활용하기

Lambda에서 활용가능한 aws-sdk-pandas에 대해 간단히 알아본다. github 주소 : aws-sdk-pandas (panda...

2024/06/20 # Dev # ETL Lambda

optional label과 비용효과적인 Protobuf 처리

optional label과 비용효과적인 Protobuf 처리에 대해 알아본다. 이전 상황 센서 데이터를 protobuf로 형식으로 받아...

2024/04/24 # Data # ETL Protobuf Python Firehose

AWS Lambda Layer(계층) 사용법 정리 (for Python)

AWS Lambda Layer 사용법에 대해 간단히 정리해본다. Layer(계층) 만들기 이전 패키지 저장 명령어는 다음과 같다. p...

2024/01/20 # Data # ETL AWS Lambda

S3 버킷 버전 관리 간단 정리

S3 버킷 버전 관리 사용 시 정보에 대해 간단히 정리해본다. 버킷 생성 시 또는 추후 속성 설정에서 버전 관리를 활성화할 수 있다. 버...

2024/01/01 # Data # ETL AWS S3

Kinesis Data Firehose 사용 시 주의할 사항 (with VPC Endpoint)

AWS Kinesis Data Firehose 사용 시 주의할 사항에 대해 알아본다. AWS VPC 간 통신 비용 보통 보안을 위해 Pr...

2023/12/18 # Data # ETL AWS Firehose VPCEndpoint

Athena Partition Projection 활용 시 주의할 사항

Athena Partition Projection 활용 시 겪었던 주의할 사항에 대해 알아본다. 빅쿼리와 비교 빅쿼리는 테이블 정의 시 ...

2023/12/11 # Data # ETL Athena S3

Pandas 대신 SQL로 분석해보자 with DuckDB

DuckDB를 활용하여 SQL로 데이터 분석하는 법을 알아본다. 보통 데이터 분석은 Pandas로 시작한다. 하지만 데이터 크기가 커질수록...

2023/07/27 # Data # ETL DuckDB SQL

Athena의 Array 타입 활용하기

Athena의 Array 타입 활용하는 법을 알아본다. ARRAY 타입 기본 활용 ARRAY는 같은 타입으로만 구성되어야 한다. 중첩 A...

2021/10/18 # Data # ETL Athena Array

Athena 2의 UNLOAD를 활용하여 데이터 가공하기 (with Lambda)

CTAS를 대체하는 UNLOAD를 Lambda와 활용하는 법을 알아본다. Athena 2에서 기존 CTAS보다 간편하게 사용할 수 있는 U...

2021/09/23 # Data # ETL Athena UNLOAD Lambda S3 Parquet

S3와 AWS Aurora MySQL 간 데이터 주고받기 (업로드 & 다운로드)

S3와 AWS Aurora MySQL 간 데이터를 주고받는 방법을 알아본다. Aurora MySQL에는 대용량 데이터를 쉽고 빠르게 S3와...

2021/04/04 # Data # ETL RDS S3

Athena로 대용량 CSV 데이터를 Parquet로 변환하기

Athena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...

2020/10/09 # Data # ETL Athena S3 Parquet CTAS

AWS Glue 테스트 환경 간단하게 만들기

AWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...

2020/09/22 # Data # ETL Glue DevEndpoint Docker

Pandas를 Numpy로! 최적화 시리즈(1) - ndarray 활용

Numpy의 ndarray만 활용해도 성능을 높일 수 있다. 글 하단에 내용과 관련된 코드 실행결과가 담긴 Colab 노트북 파일을 확인할...

2020/01/20 # Data # ETL Pandas Numpy Numexpr

Pyspark에서 AWS S3 데이터 읽기

2019/12/09 # Data # ETL Pyspark AWS S3

Pandas에서 CSV 데이터를 빠르게 읽기 (with. Apache Arrow, Parquet)

Pandas에서 CSV 데이터를 빠르게 읽는 법을 알아본다. pandas는 기본적으로 single core를 사용한다. 데이터 크기가 커질...

2019/11/27 # Data # ETL Python Pandas Arrow Parquet

CSV 데이터 검증하기(Validation)

CSV 데이터의 accuracy와 quality를 보장하기 위해 검증하는 방법을 알아본다. CSV 파일을 처리(분석)할 때 accuracy...

2019/04/04 # Data # ETL Validation Python Vladiate

여러 시트를 통합한 피벗테이블 생성하기 feat.데이터모델링

여러 시트에 존재하는 테이블들을 JOIN하여 하나의 피벗테이블에서 처리할 수 있다. 실습을 위해 활용할 xlsx 파일 내 시트 별 데이터 ...

2018/04/19 # Data # ETL Excel 피벗테이블 데이터모델링

파이썬 크롤링 활용팁 by 엔코아

엔코아 공감토크에서 진행한 웹페이지 크롤링 강연 노트 – 라이브러리 선택 Requests : 파이썬에서 동작하는 작고 빠른...

2018/01/16 # Data # ETL Crawling Python Requests Selenium

서울자전거 따릉이 대여소 시각화(1) - 위치 크롤링

Requests와 BeautifulSoup 라이브러리를 활용한 따릉이 대여소 크롤링 서울 열린 데이터 광장에 업로드된 파일은 최신 대여소 ...

2017/11/19 # Data # ETL Crawling Python Requests BeautifulSoup

네이버 카페 게시글 크롤링

Selenium 라이브러리를 활용하여 로그인 session을 유지한다. – 네이버 카페는 기본적으로 카페에 가입한 후 게시글 읽기 권한이 ...

2017/11/19 # Data # ETL Crawling Python Selenium