소소하게 2020 블로그 결산
2019년에 이어 소소하게 2020년 블로그 운영 결산을 해본다. 개요 2019년에 비해 2020년에 블로그 활동이 매우 줄어든 것을 반...
2021/01/20 # Note2019년에 이어 소소하게 2020년 블로그 운영 결산을 해본다. 개요 2019년에 비해 2020년에 블로그 활동이 매우 줄어든 것을 반...
2021/01/20 # NoteAthena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...
2020/10/09 # ETL Athena S3 Parquet CTASAWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...
2020/09/22 # ETL Glue DevEndpoint Dockerredash DataSource에 google sheets를 연결해본다. redash에서 기본적으로 잘 정리된 문서와 영상을 제공해주지만 ...
2020/09/08 # DataViz redash google sheetsAWS EC2, GCP VM Instance에 SSH로 접속하는 법을 간단히 정리한다. 주의 이 방법은 보안이슈가 생길 수 있기 때문에...
2020/07/22 # DevOps ssh AWS GCPserverless framework을 활용하여 AWS Lambda를 배포해본다. AWS에서 Python 기반 Lambda를 배포할 때 C...
2020/05/13 # DevOps AWS Lambda Python ServerlessSuperset의 Country Map 차트에서 대한민국을 시각화해본다. Superset 0.36 기준 Superset에서 Countr...
2020/04/19 # DataViz SupersetAWS 서비스의 데이터를 Pandas로 활용하는 AWS Data Wrangler에 대해 알아본다. AWS Data Wrangler ( P...
2020/04/11 # DataOps AWS Pandas Lambda다양한 기능을 제공하는 Command Line Client 사용법을 알아본다. mycli - MySQL | pgcli - PostgreSQ...
2020/03/18 # SQL MySQL mycli PostgreSQL pgcliSQL에서 User Defined Variable 다루는 법을 알아본다. SQL 문제를 풀다보면 쿼리가 매우 길어지는 경우가 있다. Use...
2020/03/17 # SQL PostgreSQL MySQL variableAirflow의 시간정보에 대한 정리해본다. Airflow는 UTC TIMEZONE으로 처리 Airflow는 aware datetime ...
2020/02/28 # DataOps Airflow TIMEZONEFAB가 제공하는 기능을 통해 Airflow에 기본 보안을 설정한다. 1.10.3 기준 Airflow를 설치할 경우, 기본적으로 보안 ...
2020/02/10 # DataOps Airflow RBAC FERNET_KEYNumpy의 ndarray만 활용해도 성능을 높일 수 있다. 글 하단에 내용과 관련된 코드 실행결과가 담긴 Colab 노트북 파일을 확인할...
2020/01/20 # ETL Pandas Numpy Numexpr소소하게 2019년 블로그 운영 결산을 해본다. 개요 포트폴리오를 만들겠다는 이유로 시작하여, 2017년 11월 블로그에 처음 글을 업로...
2020/01/03 # NoteMySQL과 PostgreSQL Query의 차이점을 정리해본다. (상시 업데이트) 참고 : 전문적인 내용보다는 참고 용도로 정리하고 있다...
2019/12/17 # SQL MySQL PostgreSQL