[책] 빅데이터를 지탱하는 기술
1. 빅데이터의 기초 지식
[배경] 빅데이터의 정착


빅데이터 시대의 데이터 분석 기반


2. 빅데이터의 탐색
크로스 집계 / 열 지향 스토리지에 의한 고속화

애드혹 분석과 시각화 도구 / 데이터 마트 기본 구조

3. 빅데이터의 분산처리
대규모 분산처리의 프레임워크 : Hadoop, Spark

쿼리 엔진 : Hive, Presto

데이터 마트 구축

4. 빅데이터의 축적
벌크형 데이터 수집

스트리밍형 데이터 수집

[성능x신뢰성] 메시지 배송의 트레이드 오프


시계열 데이터의 최적화

비구조화 데이터의 분산 스토리지 : 분산KVS, 와이드칼럼스토어, 도큐먼트스토어, 검색엔진


5. 빅데이터의 파이프라인
워크플로 관리


배치 형의 데이터 플로우

스트리밍 형의 데이터 플로우

6. 빅데이터 분석 기반의 구축
스키마리스 데이터의 애드 혹 분석 : MongoDB, Spark

Hadoop에 의한 데이터 파이프라인 : MongoDB, Embulk, Hadoop, Hive, Presto

워크플로 관리 도구에 의한 자동화 : Airflow

클라우드 데이터 파이프라인 : AWS, GCP, 트레주어
