pandas보다 빠르게 데이터 저장하기
pandas보다 데이터를 빠르게 저장하는 법에 대해 간단히 정리한다. pandas를 편해서 사용하다 보니 생각보다 I/O 작업에 시간이 오...
2024/10/07 # Dev # ETL duckdb polars pyarrowCATEGORY : ETL
pandas보다 데이터를 빠르게 저장하는 법에 대해 간단히 정리한다. pandas를 편해서 사용하다 보니 생각보다 I/O 작업에 시간이 오...
2024/10/07 # Dev # ETL duckdb polars pyarrowAthena에서 Apache Iceberg 테이블 활용하는 법에 대해 간단히 정리한다. TIME TRAVEL & ROLLBACK ...
2024/09/03 # Dev # ETL Athena IcebergAthena에서 Apache Iceberg 테이블 활용하는 법에 대해 간단히 정리한다. Apache Iceberg는 The open tab...
2024/07/31 # Dev # ETL Athena IcebergLambda에서 활용가능한 aws-sdk-pandas에 대해 간단히 알아본다. github 주소 : aws-sdk-pandas (panda...
2024/06/20 # Dev # ETL Lambdaoptional label과 비용효과적인 Protobuf 처리에 대해 알아본다. 이전 상황 센서 데이터를 protobuf로 형식으로 받아...
2024/04/24 # Data # ETL Protobuf Python FirehoseAWS Lambda Layer 사용법에 대해 간단히 정리해본다. Layer(계층) 만들기 패키지 저장 명령어는 다음과 같다. pip i...
2024/01/20 # Data # ETL AWS LambdaS3 버킷 버전 관리 사용 시 정보에 대해 간단히 정리해본다. 버킷 생성 시 또는 추후 속성 설정에서 버전 관리를 활성화할 수 있다. 버...
2024/01/01 # Data # ETL AWS S3AWS Kinesis Data Firehose 사용 시 주의할 사항에 대해 알아본다. AWS VPC 간 통신 비용 보통 보안을 위해 Pr...
2023/12/18 # Data # ETL AWS Firehose VPCEndpointAthena Partition Projection 활용 시 겪었던 주의할 사항에 대해 알아본다. 빅쿼리와 비교 빅쿼리는 테이블 정의 시 ...
2023/12/11 # Data # ETL Athena S3DuckDB를 활용하여 SQL로 데이터 분석하는 법을 알아본다. 보통 데이터 분석은 Pandas로 시작한다. 하지만 데이터 크기가 커질수록...
2023/07/27 # Data # ETL DuckDB SQLAthena의 Array 타입 활용하는 법을 알아본다. ARRAY 타입 기본 활용 ARRAY는 같은 타입으로만 구성되어야 한다. 중첩 A...
2021/10/18 # Data # ETL Athena ArrayCTAS를 대체하는 UNLOAD를 Lambda와 활용하는 법을 알아본다. Athena 2에서 기존 CTAS보다 간편하게 사용할 수 있는 U...
2021/09/23 # Data # ETL Athena UNLOAD Lambda S3 ParquetS3와 AWS Aurora MySQL 간 데이터를 주고받는 방법을 알아본다. Aurora MySQL에는 대용량 데이터를 쉽고 빠르게 S3와...
2021/04/04 # Data # ETL RDS S3Athena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...
2020/10/09 # Data # ETL Athena S3 Parquet CTASAWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...
2020/09/22 # Data # ETL Glue DevEndpoint DockerNumpy의 ndarray만 활용해도 성능을 높일 수 있다. 글 하단에 내용과 관련된 코드 실행결과가 담긴 Colab 노트북 파일을 확인할...
2020/01/20 # Data # ETL Pandas Numpy NumexprPyspark에서 AWS S3 데이터 읽는 법을 알아본다. Spark에서 S3 데이터를 읽는 방법 설명 Spark는 Hadoop File...
2019/12/09 # Data # ETL Pyspark AWS S3Pandas에서 CSV 데이터를 빠르게 읽는 법을 알아본다. pandas는 기본적으로 single core를 사용한다. 데이터 크기가 커질...
2019/11/27 # Data # ETL Python Pandas Arrow ParquetCSV 데이터의 accuracy와 quality를 보장하기 위해 검증하는 방법을 알아본다. CSV 파일을 처리(분석)할 때 accuracy...
2019/04/04 # Data # ETL Validation Python Vladiate여러 시트에 존재하는 테이블들을 JOIN하여 하나의 피벗테이블에서 처리할 수 있다. 실습을 위해 활용할 xlsx 파일 내 시트 별 데이터 ...
2018/04/19 # Data # ETL Excel 피벗테이블 데이터모델링엔코아 공감토크에서 진행한 웹페이지 크롤링 강연 노트 – 라이브러리 선택 Requests : 파이썬에서 동작하는 작고 빠른...
2018/01/16 # Data # ETL Crawling Python Requests SeleniumBigKinds는 한국언론진흥재단이 운영하는 뉴스빅데이터 분석시스템이다. – 자체 분석서비스도 이용할 수 있지만 데이터를 엑셀파일로 다운받...
2017/11/24 # Data # ETL R wordcloudRequests와 BeautifulSoup 라이브러리를 활용한 따릉이 대여소 크롤링 서울 열린 데이터 광장에 업로드된 파일은 최신 대여소 ...
2017/11/19 # Data # ETL Crawling Python Requests BeautifulSoupSelenium 라이브러리를 활용하여 로그인 session을 유지한다. – 네이버 카페는 기본적으로 카페에 가입한 후 게시글 읽기 권한이 ...
2017/11/19 # Data # ETL Crawling Python Selenium