반응형
안녕하세요. 해당 글은
각각의 기능의 기능을 정의 후 실습에서 보완할 목적을 가지고 있습니다.
Trannsformer
이름 | 설명 |
Binarizer | 연속적인 변수를 이진 변수로 변환 |
Bucketizer | 연속적인 변수를 주어진 임계치의 리스트를 기반으로 쪼개서 Bucket으로 변환 |
CountVectorizer | Vector의 개수를 Counting |
DCT(Discrete Cosine Transform) | 실수로 이뤄진 벡터를 입력받아 다른 빈도로 진동(그래프 형성)하는 같은 길이의 벡터를 반환 |
ElementwiseProduct | arg vector + scalingVector 원소를 곱한 값 반환 |
HashingTF | 분리된 텍스트를 리스트로 받아서 ㅋㅋ카운트 벡터를 반환하는 해싱 트릭 트랜스포머 |
IDF (Inverse Document Frequency) | 주어진 문서 리스트에 대한 IDF 값 |
IndexToString | StringIndexer 함수에 대한 보완 |
PCA(Principal component analysis) | 차원 축소 |
RegexTokenizer | 정규 표현식을 이용한 스트링 분리기 |
SQLTransformer | SQL 문법 사용 |
StringIndexer | 한 컬럼에 주어진 모든 워드 리스트에 대해 인덱스 벡터 생성 |
Tokenizer | 스트링을 소문자로 변환하고 스페이스 기준으로 분리 |
VectorAssembler | 여러 개의 숫자 컬럼을 벡터 형태의 한 컬럼으로 변환 트랜스포머 |
VectorIndexer | 카테고리 Column을 벡터 인덱스로 변환 |
Word2Vec | arg 문자열로 {String, Vector} 형태로 변형 (Look up table) |
Estimator
- 관찰된 데이터들에 대해 예측이나 분류를 수행하는 데 필요한 통계 모델
- tf.models.model.fit()을 떠올릴 수 있음
분류
이름 | 설명 |
LogsticRegression | 벤치마크 모델, 이진 분류 |
DecisionTreeClassifier | 관찰 데이터의 클래스를 예측하는 의사결정트리 모델 |
GBTClassifier (Gradient Boosted Tree) | 모델로 여러 개의 약한 모델들을 뭉쳐서 강한 모델을 만들어내는 앙상블 모델 |
RandomForesetClassifier | 여러 개의 결정 트리를 만들어 그 결정 트리들의 결과들을 예측 값으로 사용, 이진 혹은 다수의 레이블에 대한 예측 |
NaivaeBayes | 나이브베이즈, 데이터 분류를 위해 조건부 확률을 사용, 이진 혹은 다수 |
MultilayerPerceptronClassifier | MLP / 딥러닝과 흡사 |
OneVsRest | 여러 클래스에 대한 분류를 이진 분류로 축소 |
회귀
AFTSurvivalRegression (Accekerated Failure Time) | 단계가 잘 정의된 프로세스에 아주 유용 |
DecisionTreeFregession | 결정 트리 분류 모델과 비슷하나 레이블이 연속적인 데이터이거나 다중 분류를 가진 데이터 |
GBTRegressor | DecisionTreeRegressor에서 레이블 타입만 다르다 |
GeneralizedLinearRegression | 다른 커널 함수를 사용하는 선형 모델 |
IsotonicRegression | 감소하지 않는 자유로운 형태의 데이터에 대한 회귀 모델 |
LinearRegression | 가장 간단한 회귀 모델, 피처들 사이의 관계가 선형이고, 레이블이 연속적인 값, 오차가 정규 분류를 띈다는 것을 가정한 모델 |
RandomForestRegressor | 분리된 값이 아닌 연속적인 값들에 대해 학습 |
군집화
데이터에서 패턴을 발견하는 것
BisectingKMeans | 계층적 군집화 + K-평균 군집화 알고리즘의 조합 |
KMeans | 각 데이터와 군집 사이의 거리 제곱의 합을 최소화하는 중심을 반복적으로 계산하면서 가장 최적화된 K개의 중심을 찾는 모델 |
GaussianMixture | K 가우시안 분포 |
LDA (Latent Dirichlet allocation) | 토픽 모델링 |
반응형
'spark' 카테고리의 다른 글
install spark on mac os - 스파크 시작 (0) | 2022.12.20 |
---|---|
Spark - RDD (0) | 2021.01.05 |
아파치 스파크 첫 걸음 (0) | 2021.01.04 |