optional label과 비용효과적인 Protobuf 처리
optional label과 비용효과적인 Protobuf 처리에 대해 알아본다. 이전 상황 센서 데이터를 protobuf로 형식으로 받아...
2024/04/24 # Data # ETL Protobuf Python FirehoseCATEGORY : Data
optional label과 비용효과적인 Protobuf 처리에 대해 알아본다. 이전 상황 센서 데이터를 protobuf로 형식으로 받아...
2024/04/24 # Data # ETL Protobuf Python FirehoseSQL로 PIVOT 테이블 만드는 방법에 대해 간단히 정리해본다. SQL 기준 : ATHENA DuckDB 아래 stackoverflow...
2024/03/06 # Data # SQL Athena DuckDB위경도 좌표 간 거리 계산하는 방법에 대해 간단히 정리해본다. SQL 기준 : ATHENA GEOGRAPHY 타입 GEOGRAPHY는 ...
2024/02/26 # Data # SQL Athena DuckDB특정 Polygon 안에 포함된 위치 데이터 검색 방법에 대해 간단히 정리해본다. SQL 기준 : ATHENA DuckDB GEOMETR...
2024/02/20 # Data # SQL Athena DuckDBN-interval(N시간 간격) 데이터 처리하는 방법에 대해 간단히 정리해본다. 참고: stakoverflow를 보고 배웠으나 기존 링크...
2024/02/19 # Data # SQL Athena DuckDBAWS Lambda Layer 사용법에 대해 간단히 정리해본다. Layer(계층) 만들기 패키지 저장 명령어는 다음과 같다. pip i...
2024/01/20 # Data # ETL AWS LambdaS3 버킷 버전 관리 사용 시 정보에 대해 간단히 정리해본다. 버킷 생성 시 또는 추후 속성 설정에서 버전 관리를 활성화할 수 있다. 버...
2024/01/01 # Data # ETL AWS S3Athena 테이블 DDL에 대해 간단히 정리해본다. 데이터 타입 데이터 타입은 아래 링크에서 확인할 수 있다. Data types i...
2023/12/25 # Data # SQL AWS AthenaAWS Kinesis Data Firehose 사용 시 주의할 사항에 대해 알아본다. AWS VPC 간 통신 비용 보통 보안을 위해 Pr...
2023/12/18 # Data # ETL AWS Firehose VPCEndpointAthena Partition Projection 활용 시 겪었던 주의할 사항에 대해 알아본다. 빅쿼리와 비교 빅쿼리는 테이블 정의 시 ...
2023/12/11 # Data # ETL Athena S3DuckDB를 활용하여 SQL로 데이터 분석하는 법을 알아본다. 보통 데이터 분석은 Pandas로 시작한다. 하지만 데이터 크기가 커질수록...
2023/07/27 # Data # ETL DuckDB SQLAthena의 Array 타입 활용하는 법을 알아본다. ARRAY 타입 기본 활용 ARRAY는 같은 타입으로만 구성되어야 한다. 중첩 A...
2021/10/18 # Data # ETL Athena ArrayCTAS를 대체하는 UNLOAD를 Lambda와 활용하는 법을 알아본다. Athena 2에서 기존 CTAS보다 간편하게 사용할 수 있는 U...
2021/09/23 # Data # ETL Athena UNLOAD Lambda S3 ParquetS3와 AWS Aurora MySQL 간 데이터를 주고받는 방법을 알아본다. Aurora MySQL에는 대용량 데이터를 쉽고 빠르게 S3와...
2021/04/04 # Data # ETL RDS S3Athena로 대용량 CSV 데이터를 Parquet로 변환하는 방법을 알아본다. 21/5/12 기준 그동안 쿼리 문제가 있는 걸 확인했으며...
2020/10/09 # Data # ETL Athena S3 Parquet CTASAWS Glue 테스트 환경을 간단하게 생성하고 활용하는 방법을 알아본다. Glue는 DynamicFrame이라는 SparkDataFram...
2020/09/22 # Data # ETL Glue DevEndpoint Dockerredash DataSource에 google sheets를 연결해본다. redash에서 기본적으로 잘 정리된 문서와 영상을 제공해주지만 ...
2020/09/08 # Data # DataViz redash google sheetsSuperset의 Country Map 차트에서 대한민국을 시각화해본다. Superset 0.36 기준 Superset에서 Countr...
2020/04/19 # Data # DataViz SupersetAWS 서비스의 데이터를 Pandas로 활용하는 AWS Data Wrangler에 대해 알아본다. AWS Data Wrangler ( P...
2020/04/11 # Data # DataOps AWS Pandas Lambda다양한 기능을 제공하는 Command Line Client 사용법을 알아본다. mycli - MySQL | pgcli - PostgreSQ...
2020/03/18 # Data # SQL MySQL mycli PostgreSQL pgcliSQL에서 User Defined Variable 다루는 법을 알아본다. SQL 문제를 풀다보면 쿼리가 매우 길어지는 경우가 있다. Use...
2020/03/17 # Data # SQL PostgreSQL MySQL variableAirflow의 시간정보에 대한 정리해본다. Airflow는 UTC TIMEZONE으로 처리 Airflow는 aware datetime ...
2020/02/28 # Data # DataOps Airflow TIMEZONEFAB가 제공하는 기능을 통해 Airflow에 기본 보안을 설정한다. 1.10.3 기준 Airflow를 설치할 경우, 기본적으로 보안 ...
2020/02/10 # Data # DataOps Airflow RBAC FERNET_KEYNumpy의 ndarray만 활용해도 성능을 높일 수 있다. 글 하단에 내용과 관련된 코드 실행결과가 담긴 Colab 노트북 파일을 확인할...
2020/01/20 # Data # ETL Pandas Numpy NumexprMySQL과 PostgreSQL Query의 차이점을 정리해본다. (상시 업데이트) 참고 : 전문적인 내용보다는 참고 용도로 정리하고 있다...
2019/12/17 # Data # SQL MySQL PostgreSQLPyspark에서 AWS S3 데이터 읽는 법을 알아본다. Spark에서 S3 데이터를 읽는 방법 설명 Spark는 Hadoop File...
2019/12/09 # Data # ETL Pyspark AWS S3Pandas에서 CSV 데이터를 빠르게 읽는 법을 알아본다. pandas는 기본적으로 single core를 사용한다. 데이터 크기가 커질...
2019/11/27 # Data # ETL Python Pandas Arrow ParquetPostgreSQL에서 LIKE 검색 속도를 높여주는 pg_trgm을 활용해본다. PostgreSQL 10.9 버전(docker)에서 테스...
2019/10/31 # Data # SQL PostgreSQL pg_trgmSQL로 중복 데이터를 확인 및 삭제하는 법을 알아본다. 사용 데이터 id first_name ...
2019/09/08 # Data # SQL PostgreSQL MySQL duplicates DELETE JOINSQL로 Pivot Table 만드는 법을 알아본다. 데이터 예시 id country r...
2019/07/20 # Data # SQL PostgreSQL FILTER tablefunc crosstab MySQLSQL로 Date / Time 데이터 다루는 법을 알아본다. 데이터 타입 PostgreSQL DATE, TIMESTAMP, TIMEST...
2019/07/19 # Data # SQL PostgreSQL MySQLSQL로 증감률(성장률) 계산하는 법을 알아본다. 데이터 예시 date sales ...
2019/07/14 # Data # SQL PostgreSQL LAG MySQLSuperset에서 생성한 Dashboard를 public하게 공유할 수 있다. superset 0.28.1 기준 다음처럼 Dashbo...
2019/07/03 # Data # DataViz Superset Dashboard ChartAirflow에서 slack으로 DAG 실패 메세지 보내는 법을 알아본다. 테스트 버전 : 1.10.3 Slack에는 Web Hook을 ...
2019/06/07 # Data # DataOps Airflow SlackDeploying a Hadoop Cluster Lesson 5를 기반으로 작성하였다. Hadoop Cluster를 AWS의 Amazon E...
2019/04/12 # Data # DataOps AWS EMR HadoopSQL에서 데이터를 분리해서 활용하는 방법을 알아본다. 사용할 데이터는 python의 Faker라는 라이브러리를 통해 생성했다. from...
2019/04/08 # Data # SQL MySQL SUBSTRING_INDEX REGEXP_SUBSTR PostgreSQL split_part regexp_split_to_array FakerPython SQL client 라이브러리인 pymysql(MySQL)과 psycopg2(PostgreSQL) 사용법을 알아본다. 0. 알...
2019/04/08 # Data # SQL pymysql psycopg2 copy_from Python StringIOCSV 데이터의 accuracy와 quality를 보장하기 위해 검증하는 방법을 알아본다. CSV 파일을 처리(분석)할 때 accuracy...
2019/04/04 # Data # ETL Validation Python VladiateDeploying a Hadoop Cluster Lesson 1을 기반으로 작성하였다. Hadoop 2.9 Cluster를 AWS EC2 I...
2019/04/01 # Data # DataOps AWS EC2 HadoopDeploying a Hadoop Cluster Lesson 1을 기반으로 작성하였다. Hadoop 2.9 Cluster를 AWS EC2 I...
2019/04/01 # Data # DataOps AWS EC2 Hadoop주요 용어 출처 : https://www.slideshare.net/varyakarpenko5/airflow-for-beginners/4...
2019/02/23 # Data # DataOps AirflowSQL로 나이(age) 계산하는 법을 알아본다. 참고 : 데이터 분석을 위한 SQL레시피 내용을 바탕으로 작성하였다. 나이는 매년 변하는...
2019/02/13 # Data # SQL PostgreSQL age MySQLapache superset을 활용하여 라인 차트를 만들어본다. superset 0.28.1 기준 superstore sales sam...
2019/02/12 # Data # DataViz Supersetapache superset을 활용하여 요약 테이블 차트를 만들어본다. superset 0.36 기준 superstore sales s...
2019/02/11 # Data # DataViz SupersetSQL에서 누적합, 누적백분율을 활용하여 분석에 활용한다. 데이터는 Kaggle의 Big Mart Sales를 활용하였다. (일부 컬럼만)...
2019/01/29 # Data # SQL PostgreSQL MySQL WINDOW FUNCTION ABC analysisSQL로 집합 연산자(SET OPERATOR) 활용하는 법을 알아본다. SQL에는 집합 개념을 활용한 UNION(합집합), UNION AL...
2019/01/25 # Data # SQL PostgreSQL UNION EXCEPT INTERSECT MySQLSQL로 CUSTOM한 값을 기준으로 정렬하는 법을 알아본다. SQL로 보통 정렬을 실행할 때는 컬럼값을 기준으로 ( e.g.) ORDER...
2019/01/24 # Data # SQL MySQL FIELD PostgreSQL array_positionSuperset에는 workbench, pgAdmin같은 SQL Lab이라는 기능이 존재한다. superset 0.28.1 기준 S...
2019/01/23 # Data # SQL Superset DB Postgresql SQL LabSQL에서 CTE(Common Table Expression) 표현법인 WITH 구문 사용법을 알아본다. 테스트를 위해서 Bike Shar...
2019/01/18 # Data # SQL MySQL PostgreSQL CTE WITHSQL에서 WINDOW FUNCTION을 활용하여 TOP N, 상위 퍼센트 데이터를 구해본다. 테스트를 위해서 tips 데이터를 활용하였다...
2019/01/18 # Data # SQL MySQL PostgreSQL ROW_NUMBER PERCENT_RANK FIRST_VALUESQL에서 CSV 파일을 업로드해 테이블로 만드는 방법을 알아본다. CSV 파일을 업로드 하기 전 테이블을 정의해서 미리 생성해야 한다. ...
2019/01/17 # Data # SQL MySQL PostgreSQL Load_csvGROUP BY와 함께 사용하면 유용한 GROUP_CONCAT과 STRING_AGG 활용법에 대해 알아본다. 데이터 출처 : MySQL r...
2019/01/15 # Data # SQL MySQL GROUP_CONCAT PostgreSQL STRING_AGGUbuntu에서 apache superset을 활용하여 위경도 데이터를 시각화해본다. superset 0.28.1 기준 superset...
2019/01/02 # Data # DataViz Superset Visualization MapboxMySQL에서 EXISTS 사용법에 대해 알아본다. RENEWAL (그동안 EXISTS에 적합하지 않은 예시 사용) 실습에 활용할 테이...
2018/04/25 # Data # SQL MySQL PostgreSQL EXISTS JOIN IN (Subquery)여러 시트에 존재하는 테이블들을 JOIN하여 하나의 피벗테이블에서 처리할 수 있다. 실습을 위해 활용할 xlsx 파일 내 시트 별 데이터 ...
2018/04/19 # Data # ETL Excel 피벗테이블 데이터모델링MySQL에서 CROSS JOIN과 SELF JOIN에 대해 알아본다. 예제로 활용할 cities 테이블 id...
2018/04/15 # Data # SQL MySQL CROSS JOIN SELF JOINSET type은 정해진 리스트 내에서 중복되지 않는 여러 값을 가질 수 있는 string object이다. SET type은 최대 64개...
2018/04/05 # Data # SQL MySQL SET FIND_IN_SETSQL에서 소계, 합계 계산에 유용한 ROLLUP 활용법에 대해 알아본다. 사용할 데이터는 MySQL reference에서 가져왔다. ...
2018/03/29 # Data # SQL MySQL PostgreSQL GROUP BY ROLLUP GROUPINGCodeSignal SQL 예제를 바탕으로 LIKE 활용법에 대해 알아본다. users 테이블 id ...
2018/03/26 # Data # SQL MySQL LIKE LIKE BINARY PostgreSQL ILIKE엔코아 공감토크에서 진행한 웹페이지 크롤링 강연 노트 – 라이브러리 선택 Requests : 파이썬에서 동작하는 작고 빠른...
2018/01/16 # Data # ETL Crawling Python Requests SeleniumBigKinds는 한국언론진흥재단이 운영하는 뉴스빅데이터 분석시스템이다. – 자체 분석서비스도 이용할 수 있지만 데이터를 엑셀파일로 다운받...
2017/11/24 # Data # ETL R wordcloud크롤링한 CSV 데이터 기반 태블로를 활용한 지도 시각화 – 먼저 엑셀을 통해 주소 데이터가 정확하지 못한 부분을 정제했다. 데이터 로딩...
2017/11/20 # Data # DataViz TableauRequests와 BeautifulSoup 라이브러리를 활용한 따릉이 대여소 크롤링 서울 열린 데이터 광장에 업로드된 파일은 최신 대여소 ...
2017/11/19 # Data # ETL Crawling Python Requests BeautifulSoupSelenium 라이브러리를 활용하여 로그인 session을 유지한다. – 네이버 카페는 기본적으로 카페에 가입한 후 게시글 읽기 권한이 ...
2017/11/19 # Data # ETL Crawling Python Selenium