spark

Spark ML package

PSAwesome 2021. 1. 19. 13:24
반응형

안녕하세요. 해당 글은

각각의 기능의 기능을 정의 후 실습에서 보완할 목적을 가지고 있습니다.

Trannsformer

이름 설명
Binarizer 연속적인 변수를 이진 변수로 변환
Bucketizer 연속적인 변수를 주어진 임계치의 리스트를 기반으로 쪼개서 Bucket으로 변환
CountVectorizer Vector의 개수를 Counting
DCT(Discrete Cosine Transform) 실수로 이뤄진 벡터를 입력받아 다른 빈도로 진동(그래프 형성)하는 같은 길이의 벡터를 반환
ElementwiseProduct arg vector + scalingVector 원소를 곱한 값 반환
HashingTF 분리된 텍스트를 리스트로 받아서 ㅋㅋ카운트 벡터를 반환하는 해싱 트릭 트랜스포머
IDF (Inverse Document Frequency) 주어진 문서 리스트에 대한 IDF 값
IndexToString StringIndexer 함수에 대한 보완
PCA(Principal component analysis) 차원 축소
   

 

RegexTokenizer 정규 표현식을 이용한 스트링 분리기
SQLTransformer SQL 문법 사용
StringIndexer 한 컬럼에 주어진 모든 워드 리스트에 대해 인덱스 벡터 생성
Tokenizer 스트링을 소문자로 변환하고 스페이스 기준으로 분리
VectorAssembler 여러 개의 숫자 컬럼을 벡터 형태의 한 컬럼으로 변환 트랜스포머
VectorIndexer 카테고리 Column을 벡터 인덱스로 변환
Word2Vec arg 문자열로 {String, Vector} 형태로 변형 (Look up table)

 

 

Estimator

- 관찰된 데이터들에 대해 예측이나 분류를 수행하는 데 필요한 통계 모델

- tf.models.model.fit()을 떠올릴 수 있음

 

분류

이름 설명
LogsticRegression 벤치마크 모델, 이진 분류
DecisionTreeClassifier 관찰 데이터의 클래스를 예측하는 의사결정트리 모델
GBTClassifier (Gradient Boosted Tree) 모델로 여러 개의 약한 모델들을 뭉쳐서 강한 모델을 만들어내는 앙상블 모델
RandomForesetClassifier 여러 개의 결정 트리를 만들어 그 결정 트리들의 결과들을 예측 값으로 사용, 이진 혹은 다수의 레이블에 대한 예측
NaivaeBayes 나이브베이즈, 데이터 분류를 위해 조건부 확률을 사용, 이진 혹은 다수
MultilayerPerceptronClassifier MLP / 딥러닝과 흡사
OneVsRest 여러 클래스에 대한 분류를 이진 분류로 축소

 

회귀

 

AFTSurvivalRegression (Accekerated Failure Time) 단계가 잘 정의된 프로세스에 아주 유용
DecisionTreeFregession 결정 트리 분류 모델과 비슷하나 레이블이 연속적인 데이터이거나 다중 분류를 가진 데이터
GBTRegressor DecisionTreeRegressor에서 레이블 타입만 다르다
GeneralizedLinearRegression 다른 커널 함수를 사용하는 선형 모델
IsotonicRegression 감소하지 않는 자유로운 형태의 데이터에 대한 회귀 모델
LinearRegression 가장 간단한 회귀 모델,
피처들 사이의 관계가 선형이고, 레이블이 연속적인 값, 오차가 정규 분류를 띈다는 것을 가정한 모델
RandomForestRegressor 분리된 값이 아닌 연속적인 값들에 대해 학습

 

군집화

데이터에서 패턴을 발견하는 것

BisectingKMeans 계층적 군집화 + K-평균 군집화 알고리즘의 조합
KMeans 각 데이터와 군집 사이의 거리 제곱의 합최소화하는 중심을 반복적으로 계산하면서 가장 최적화된 K개의 중심을 찾는 모델
GaussianMixture K 가우시안 분포
LDA (Latent Dirichlet allocation) 토픽 모델링

 

반응형

'spark' 카테고리의 다른 글

install spark on mac os - 스파크 시작  (0) 2022.12.20
Spark - RDD  (0) 2021.01.05
아파치 스파크 첫 걸음  (0) 2021.01.04