S3와 AWS Aurora MySQL 간 데이터 주고받기 (업로드 & 다운로드)
S3와 AWS Aurora MySQL 간 데이터를 주고받는 방법을 알아본다. Aurora MySQL에는 대용량 데이터를 쉽고 빠르게 S3와...
2021/04/04 # Data # ETL RDS S3CATEGORY : ETL
S3와 AWS Aurora MySQL 간 데이터를 주고받는 방법을 알아본다. Aurora MySQL에는 대용량 데이터를 쉽고 빠르게 S3와...
2021/04/04 # Data # ETL RDS S3Athena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 도입 로그 데이터 분석을 하려고 하니 다음과 같은 문제에...
2020/10/09 # Data # ETL Athena S3 Parquet CTASAWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...
2020/09/22 # Data # ETL Glue DevEndpoint DockerNumpy의 ndarray만 활용해도 성능을 높일 수 있다. 글 하단에 내용과 관련된 코드 실행결과가 담긴 Colab 노트북 파일을 확인할...
2020/01/20 # Data # ETL Pandas Numpy NumexprPyspark에서 AWS S3 데이터 읽는 법을 알아본다. Spark에서 S3 데이터를 읽는 방법 설명 Spark는 Hadoop File...
2019/12/09 # Data # ETL Pyspark AWS S3Pandas에서 CSV 데이터를 빠르게 읽는 법을 알아본다. pandas는 기본적으로 single core를 사용한다. 데이터 크기가 커질...
2019/11/27 # Data # ETL Python Pandas Arrow ParquetCSV 데이터의 accuracy와 quality를 보장하기 위해 검증하는 방법을 알아본다. CSV 파일을 처리(분석)할 때 accuracy...
2019/04/04 # Data # ETL Validation Python Vladiate여러 시트에 존재하는 테이블들을 JOIN하여 하나의 피벗테이블에서 처리할 수 있다. 실습을 위해 활용할 xlsx 파일 내 시트 별 데이터 ...
2018/04/19 # Data # ETL Excel 피벗테이블 데이터모델링엔코아 공감토크에서 진행한 웹페이지 크롤링 강연 노트 – 라이브러리 선택 Requests : 파이썬에서 동작하는 작고 빠른...
2018/01/16 # Data # ETL Crawling Python Requests SeleniumBigKinds는 한국언론진흥재단이 운영하는 뉴스빅데이터 분석시스템이다. – 자체 분석서비스도 이용할 수 있지만 데이터를 엑셀파일로 다운받...
2017/11/24 # Data # ETL R wordcloudRequests와 BeautifulSoup 라이브러리를 활용한 따릉이 대여소 크롤링 서울 열린 데이터 광장에 업로드된 파일은 최신 대여소 ...
2017/11/19 # Data # ETL Crawling Python Requests BeautifulSoupSelenium 라이브러리를 활용하여 로그인 session을 유지한다. – 네이버 카페는 기본적으로 카페에 가입한 후 게시글 읽기 권한이 ...
2017/11/19 # Data # ETL Crawling Python Selenium