반응형

spark 4

install spark on mac os - 스파크 시작

mac spark java scala Ventura 13.1 version 3.3.1 19.0.1 2.12.15 로컬에 설치된 버전입니다. # java openjdk 17.0.5 2022-10-18 LTS OpenJDK Runtime Environment Zulu17.38+21-CA (build 17.0.5+8-LTS) OpenJDK 64-Bit Server VM Zulu17.38+21-CA (build 17.0.5+8-LTS, mixed mode, sharing) # scala Scala code runner version 3.2.1 -- Copyright 2002-2022, LAMP/EPFL 진행 순서 홈브루에 스크립트 설치 java 설치 scala 설치 (선택) spark 설치 hello world..

spark 2022.12.20

Spark ML package

안녕하세요. 해당 글은 각각의 기능의 기능을 정의 후 실습에서 보완할 목적을 가지고 있습니다. Trannsformer 이름 설명 Binarizer 연속적인 변수를 이진 변수로 변환 Bucketizer 연속적인 변수를 주어진 임계치의 리스트를 기반으로 쪼개서 Bucket으로 변환 CountVectorizer Vector의 개수를 Counting DCT(Discrete Cosine Transform) 실수로 이뤄진 벡터를 입력받아 다른 빈도로 진동(그래프 형성)하는 같은 길이의 벡터를 반환 ElementwiseProduct arg vector + scalingVector 원소를 곱한 값 반환 HashingTF 분리된 텍스트를 리스트로 받아서 ㅋㅋ카운트 벡터를 반환하는 해싱 트릭 트랜스포머 IDF (Inver..

spark 2021.01.19

Spark - RDD

RDD 읽기 전용으로 분할된 record의 모음 클러스터 노드들 간에 파티션된 엘리먼트의 컬렉션이며 분산 처리 단위는 파티션 scala, java, python 언어의 객체들을 포함 Transformation(중간), Action(종단)의 연산 Transformation - 중간 연산 현재의 RDD에서 새로운 RDD를 생성 변환 전 RDD 한 요소마다 처리하는 연산 method 명 설명 매개변수 비고 filter 조건에 부합하지 않는 요소는 버림 함수 map 요소를 가공 ex) 타입의 변환, toUpperCase ... 함수 flatMap 요소 가공 후 list 모음의 반환을 flatten 하게 반환 ex) [[1,2,3], [5,6,7], [8,9,0]] -> [1,2,3,5,6,7,8,9,0] 함수 ..

spark 2021.01.05

아파치 스파크 첫 걸음

오픈소스 범용 분산 클러스터 컴퓨팅 프레임워크 인메모리 기반 대용량 고속 처리 엔진 클러스터 연산 플랫폼 인메모리 방식의 분산 처리 시스템 - 메모리에 분산 저장 및 병렬 처리 구조 스트리밍과 배치(일괄) 작업에서 높은 성능 구조 *SQL: SQL과 비슷한 정형 데이터의 처리 기능 *Streaming: 실시간 데이터 처리 기능 *ML-lib: 머신러닝 라이브러리 GraphX: 그래프 프로그래밍 SparkR: R 프로그래밍 스파크 SQL은 구조적 데이터 처리에 초점을 두어, R과 파이썬 pandas의 DataFrame을 사용한다. 지원하는 인터페이스 JSON HDFS 아파치 하이브 JDBC 아파치 ORC 아파치 파케이 Parquet (열 지향 데이터 스토리지 형식) 스파크 코어 전체 기초가 되는 기초 분산..

spark 2021.01.04
반응형