Spark ML package

spark

Spark ML package

PSAwesome 2021. 1. 19. 13:24

안녕하세요. 해당 글은

각각의 기능의 기능을 정의 후 실습에서 보완할 목적을 가지고 있습니다.

Trannsformer

이름	설명
Binarizer	연속적인 변수를 이진 변수로 변환
Bucketizer	연속적인 변수를 주어진 임계치의 리스트를 기반으로 쪼개서 Bucket으로 변환
CountVectorizer	Vector의 개수를 Counting
DCT(Discrete Cosine Transform)	실수로 이뤄진 벡터를 입력받아 다른 빈도로 진동(그래프 형성)하는 같은 길이의 벡터를 반환
ElementwiseProduct	arg vector + scalingVector 원소를 곱한 값 반환
HashingTF	분리된 텍스트를 리스트로 받아서 ㅋㅋ카운트 벡터를 반환하는 해싱 트릭 트랜스포머
IDF (Inverse Document Frequency)	주어진 문서 리스트에 대한 IDF 값
IndexToString	StringIndexer 함수에 대한 보완
PCA(Principal component analysis)	차원 축소

RegexTokenizer	정규 표현식을 이용한 스트링 분리기
SQLTransformer	SQL 문법 사용
StringIndexer	한 컬럼에 주어진 모든 워드 리스트에 대해 인덱스 벡터 생성
Tokenizer	스트링을 소문자로 변환하고 스페이스 기준으로 분리
VectorAssembler	여러 개의 숫자 컬럼을 벡터 형태의 한 컬럼으로 변환 트랜스포머
VectorIndexer	카테고리 Column을 벡터 인덱스로 변환
Word2Vec	arg 문자열로 {String, Vector} 형태로 변형 (Look up table)

Estimator

- 관찰된 데이터들에 대해 예측이나 분류를 수행하는 데 필요한 통계 모델

- tf.models.model.fit()을 떠올릴 수 있음

분류

이름	설명
LogsticRegression	벤치마크 모델, 이진 분류
DecisionTreeClassifier	관찰 데이터의 클래스를 예측하는 의사결정트리 모델
GBTClassifier (Gradient Boosted Tree)	모델로 여러 개의 약한 모델들을 뭉쳐서 강한 모델을 만들어내는 앙상블 모델
RandomForesetClassifier	여러 개의 결정 트리를 만들어 그 결정 트리들의 결과들을 예측 값으로 사용, 이진 혹은 다수의 레이블에 대한 예측
NaivaeBayes	나이브베이즈, 데이터 분류를 위해 조건부 확률을 사용, 이진 혹은 다수
MultilayerPerceptronClassifier	MLP / 딥러닝과 흡사
OneVsRest	여러 클래스에 대한 분류를 이진 분류로 축소

회귀

AFTSurvivalRegression (Accekerated Failure Time)	단계가 잘 정의된 프로세스에 아주 유용
DecisionTreeFregession	결정 트리 분류 모델과 비슷하나 레이블이 연속적인 데이터이거나 다중 분류를 가진 데이터
GBTRegressor	DecisionTreeRegressor에서 레이블 타입만 다르다
GeneralizedLinearRegression	다른 커널 함수를 사용하는 선형 모델
IsotonicRegression	감소하지 않는 자유로운 형태의 데이터에 대한 회귀 모델
LinearRegression	가장 간단한 회귀 모델, 피처들 사이의 관계가 선형이고, 레이블이 연속적인 값, 오차가 정규 분류를 띈다는 것을 가정한 모델
RandomForestRegressor	분리된 값이 아닌 연속적인 값들에 대해 학습

군집화

데이터에서 패턴을 발견하는 것

BisectingKMeans	계층적 군집화 + K-평균 군집화 알고리즘의 조합
KMeans	각 데이터와 군집 사이의 거리 제곱의 합을 최소화하는 중심을 반복적으로 계산하면서 가장 최적화된 K개의 중심을 찾는 모델
GaussianMixture	K 가우시안 분포
LDA (Latent Dirichlet allocation)	토픽 모델링

'spark' 카테고리의 다른 글

install spark on mac os - 스파크 시작 (0)	2022.12.20
Spark - RDD (0)	2021.01.05
아파치 스파크 첫 걸음 (0)	2021.01.04

현재글Spark ML package

현실과 긍정의 경계에서 긍정을 바라보려고 노력하는 사람

logstash, GCP, docker-compose, Helm, Elk, kubectl, ubuntu, spark, Spring Boot, k8s, elasticsearch, install, docker, error, docker hub, filebeat, IntelliJ, Zsh, ssh, kubernetes,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

지혜를 창출할 창고

Spark ML package

Trannsformer

Estimator

'spark' 카테고리의 다른 글

'spark'의 다른글

티스토리툴바

Spark ML package

Trannsformer

Estimator

'spark' 카테고리의 다른 글

'spark'의 다른글

관련글

티스토리툴바