반응형
    
    
    
  안녕하세요. 해당 글은
각각의 기능의 기능을 정의 후 실습에서 보완할 목적을 가지고 있습니다.
Trannsformer
| 이름 | 설명 | 
| Binarizer | 연속적인 변수를 이진 변수로 변환 | 
| Bucketizer | 연속적인 변수를 주어진 임계치의 리스트를 기반으로 쪼개서 Bucket으로 변환 | 
| CountVectorizer | Vector의 개수를 Counting | 
| DCT(Discrete Cosine Transform) | 실수로 이뤄진 벡터를 입력받아 다른 빈도로 진동(그래프 형성)하는 같은 길이의 벡터를 반환 | 
| ElementwiseProduct | arg vector + scalingVector 원소를 곱한 값 반환 | 
| HashingTF | 분리된 텍스트를 리스트로 받아서 ㅋㅋ카운트 벡터를 반환하는 해싱 트릭 트랜스포머 | 
| IDF (Inverse Document Frequency) | 주어진 문서 리스트에 대한 IDF 값 | 
| IndexToString | StringIndexer 함수에 대한 보완 | 
| PCA(Principal component analysis) | 차원 축소 | 
| RegexTokenizer | 정규 표현식을 이용한 스트링 분리기 | 
| SQLTransformer | SQL 문법 사용 | 
| StringIndexer | 한 컬럼에 주어진 모든 워드 리스트에 대해 인덱스 벡터 생성 | 
| Tokenizer | 스트링을 소문자로 변환하고 스페이스 기준으로 분리 | 
| VectorAssembler | 여러 개의 숫자 컬럼을 벡터 형태의 한 컬럼으로 변환 트랜스포머 | 
| VectorIndexer | 카테고리 Column을 벡터 인덱스로 변환 | 
| Word2Vec | arg 문자열로 {String, Vector} 형태로 변형 (Look up table) | 
Estimator
- 관찰된 데이터들에 대해 예측이나 분류를 수행하는 데 필요한 통계 모델
- tf.models.model.fit()을 떠올릴 수 있음
분류
| 이름 | 설명 | 
| LogsticRegression | 벤치마크 모델, 이진 분류 | 
| DecisionTreeClassifier | 관찰 데이터의 클래스를 예측하는 의사결정트리 모델 | 
| GBTClassifier (Gradient Boosted Tree) | 모델로 여러 개의 약한 모델들을 뭉쳐서 강한 모델을 만들어내는 앙상블 모델 | 
| RandomForesetClassifier | 여러 개의 결정 트리를 만들어 그 결정 트리들의 결과들을 예측 값으로 사용, 이진 혹은 다수의 레이블에 대한 예측 | 
| NaivaeBayes | 나이브베이즈, 데이터 분류를 위해 조건부 확률을 사용, 이진 혹은 다수 | 
| MultilayerPerceptronClassifier | MLP / 딥러닝과 흡사 | 
| OneVsRest | 여러 클래스에 대한 분류를 이진 분류로 축소 | 
회귀
| AFTSurvivalRegression (Accekerated Failure Time) | 단계가 잘 정의된 프로세스에 아주 유용 | 
| DecisionTreeFregession | 결정 트리 분류 모델과 비슷하나 레이블이 연속적인 데이터이거나 다중 분류를 가진 데이터 | 
| GBTRegressor | DecisionTreeRegressor에서 레이블 타입만 다르다 | 
| GeneralizedLinearRegression | 다른 커널 함수를 사용하는 선형 모델 | 
| IsotonicRegression | 감소하지 않는 자유로운 형태의 데이터에 대한 회귀 모델 | 
| LinearRegression | 가장 간단한 회귀 모델, 피처들 사이의 관계가 선형이고, 레이블이 연속적인 값, 오차가 정규 분류를 띈다는 것을 가정한 모델 | 
| RandomForestRegressor | 분리된 값이 아닌 연속적인 값들에 대해 학습 | 
군집화
데이터에서 패턴을 발견하는 것
| BisectingKMeans | 계층적 군집화 + K-평균 군집화 알고리즘의 조합 | 
| KMeans | 각 데이터와 군집 사이의 거리 제곱의 합을 최소화하는 중심을 반복적으로 계산하면서 가장 최적화된 K개의 중심을 찾는 모델 | 
| GaussianMixture | K 가우시안 분포 | 
| LDA (Latent Dirichlet allocation) | 토픽 모델링 | 
반응형
    
    
    
  'spark' 카테고리의 다른 글
| install spark on mac os - 스파크 시작 (0) | 2022.12.20 | 
|---|---|
| Spark - RDD (0) | 2021.01.05 | 
| 아파치 스파크 첫 걸음 (0) | 2021.01.04 |