분류 전체보기128 [ML] 의사결정 나무(Decision Tree) C4.5 알고리즘 이전에 업로드에서 의사결정 나무의 가장 기초적인 알고리즘인 ID3 알고리즘에 대해서 정리하였다. 이번에 소개할 C4.5 알고리즘은 ID3 알고리즘과 동일하게 엔트로피로 불순도를 계산하며 연속형 변수의 피처도 처리할 수 있도록 발전시킨 알고리즘이다. -목차- 1. C4.5 알고리즘 1.1 Information Gain Ratio 1.2 연속형 변수의 사용 1. C4.5 알고리즘 C4.5 알고리즘이 ID3알고리즘에 비해 개선된 점은 아래와 같이 요약할 수 있다. 정교한 불순도 지표 (Information gain ratio) 활용 범주형 변수뿐 아니라 연속형 변수를 사용 가능 1.1 Information Gain Ratio 앞서 ID3 알고리즘에서 설명했듯, 엔트로피 \(H(t)\)가 작을수록, \(t\).. 2022. 2. 24. [ML] ID3 알고리즘, 엔트로피(Entropy) 이전에 업로드하였던 의사 결정 나무(Decision Tree)에서 조금더 세부적인 내용에 대해 정리하기 위해 글을 써본다. -목차- 1. ID3 알고리즘이란? 1.1 엔트로피(Entropy) 1.2 정보 획득량(Information Gain) 1. ID3 알고리즘이란? ID3 알고리즘은 의사 결정 나무 알고리즘의 한 종류로 Iterative Dichotomiser 3의 약자이다. Dichotomiser는 “이분하다”라는 뜻의 프랑스어로, 반복적으로 이분하는 알고리즘이라고 말할 수 있다. ID3 알고리즘은 불순도 지표로 엔트로피를 사용하며 독립변수가 모두 범주형 변수일 경우에 사용 가능한 알고리즘이다. 1.1 엔트로피(Entropy) ID3 에서 불순도의 지표로 엔트로피를 사용한다고 하였다. 그렇다면 엔트.. 2022. 2. 24. [ML] 평가 지표(Evaluation Metric) -목차- 1. 성능 평가(Evaluation) 2. 정확도(Accuracy) 3. 오차 행렬(Confusion Matrix) 4. 정밀도(Precision)와 재현율(Recall) 4.1 정밀도/재현율 트레이드오프 5. F1 스코어(F1-Score) 6. ROC(Receiver Operation Characteristic Curve) 곡선과 AUC(Area Under Curve) 1. 성능 평가(Evaluation) 머신러닝은 데이터 가공/변환, 모델 학습/예측, 그리고 평가(Evaluation)의 프로세스로 구성된다. 이번 글에서는 머신러닝 모델의 성능 평가 지표(Evaluation Metric)에 대해서 다뤄 보도록 하겠다. 일반적으로 모델이 분류냐 회귀냐에 따라 여러 종류로 나뉜다. 회귀의 경우 대.. 2022. 2. 23. [ML] 피처 스케일링과 정규화(Scikit-Learn) -목차- 1. 표준화(Standardization), 정규화(Normalization)란? 1.1 표준화 1.2 정규화 2. StandardScaler 3. MinMaxScaler 구현 코드 : Feature_Scaling 1. 표준화(Standardization), 정규화(Normalization)란? 머신러닝은 데이터를 가지고 학습한다. 그런데 데이터의 각 피처는 단위도 다르고 각 피처간 값의 범위도 꽤 차이가 있다. 각 피처의 단위가 다르고 범위가 다르면 제대로 값을 비교할 수 없다. 특히 선형 회귀 문제애서 매우 큰 값을 가지는 피처는 모델의 가중치가 편향 되거나 학습시간이 오래 걸리는 문제를 야기한다. 이러한 문제를 해결하기 위해 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 .. 2022. 2. 21. 이전 1 ··· 11 12 13 14 15 16 17 ··· 32 다음