Athena로 대용량 CSV 데이터를 Parquet로 변환하기
Athena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...
2020/10/09 # ETL Athena S3 Parquet CTASAthena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...
2020/10/09 # ETL Athena S3 Parquet CTASAWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...
2020/09/22 # ETL Glue DevEndpoint Dockerredash DataSource에 google sheets를 연결해본다. redash에서 기본적으로 잘 정리된 문서와 영상을 제공해주지만 ...
2020/09/08 # DataViz redash google sheetsAWS EC2, GCP VM Instance에 SSH로 접속하는 법을 간단히 정리한다. 주의 이 방법은 보안이슈가 생길 수 있기 때문에...
2020/07/22 # DevOps ssh AWS GCPserverless framework을 활용하여 AWS Lambda를 배포해본다. AWS에서 Python 기반 Lambda를 배포할 때 C...
2020/05/13 # DevOps AWS Lambda Python ServerlessSuperset의 Country Map 차트에서 대한민국을 시각화해본다. Superset 0.36 기준 Superset에서 Countr...
2020/04/19 # DataViz SupersetAWS 서비스의 데이터를 Pandas로 활용하는 AWS Data Wrangler에 대해 알아본다. AWS Data Wrangler ( P...
2020/04/11 # DataOps AWS Pandas Lambda다양한 기능을 제공하는 Command Line Client 사용법을 알아본다. mycli - MySQL | pgcli - PostgreSQ...
2020/03/18 # SQL MySQL mycli PostgreSQL pgcliSQL에서 User Defined Variable 다루는 법을 알아본다. SQL 문제를 풀다보면 쿼리가 매우 길어지는 경우가 있다. Use...
2020/03/17 # SQL PostgreSQL MySQL variableAirflow의 시간정보에 대한 정리해본다. Airflow는 UTC TIMEZONE으로 처리 Airflow는 aware datetime ...
2020/02/28 # DataOps Airflow TIMEZONE