오픈소스 범용 분산 클러스터 컴퓨팅 프레임워크 인메모리 기반 대용량 고속 처리 엔진 클러스터 연산 플랫폼 인메모리 방식의 분산 처리 시스템 - 메모리에 분산 저장 및 병렬 처리 구조 스트리밍과 배치(일괄) 작업에서 높은 성능 구조 *SQL: SQL과 비슷한 정형 데이터의 처리 기능 *Streaming: 실시간 데이터 처리 기능 *ML-lib: 머신러닝 라이브러리 GraphX: 그래프 프로그래밍 SparkR: R 프로그래밍 스파크 SQL은 구조적 데이터 처리에 초점을 두어, R과 파이썬 pandas의 DataFrame을 사용한다. 지원하는 인터페이스 JSON HDFS 아파치 하이브 JDBC 아파치 ORC 아파치 파케이 Parquet (열 지향 데이터 스토리지 형식) 스파크 코어 전체 기초가 되는 기초 분산..