본문 바로가기

머신러닝, 딥러닝/Decision Tree4

[ML] 의사결정 나무(Decision Tree) CART 알고리즘 이전에 업로드에서 의사결정 나무의 알고리즘인 C4.5 알고리즘에 대해서 정리하였다. 이번에 소개할 CART 알고리즘은 불순도 지표를 엔트로피가 아닌 지니 계수를 사용하며, 분류 문제와 회귀 문제에 모두 적용할 수 있는 알고리즘이다. 파이썬 기반의 오픈 ML 라이브러리인 사이킷런(scikit-learn) 에서는 이러한 결정 트리를 위한 API를 제공한다. DecisionTreeClassifier와 DecisionTreeRegressor가 그것이다. DecisionTreeClassifier는 분류를 위한 클래스이며 DecisionTreeRegressor는 회귀를 위한 클래스이다. 사이킷런의 결정 트리 구현은 이번 글에서 소개할 CART알고리즘 기반이다. 아래 코드는 DecisionTreeClassifier를.. 2022. 2. 24.
[ML] 의사결정 나무(Decision Tree) C4.5 알고리즘 이전에 업로드에서 의사결정 나무의 가장 기초적인 알고리즘인 ID3 알고리즘에 대해서 정리하였다. 이번에 소개할 C4.5 알고리즘은 ID3 알고리즘과 동일하게 엔트로피로 불순도를 계산하며 연속형 변수의 피처도 처리할 수 있도록 발전시킨 알고리즘이다. -목차- 1. C4.5 알고리즘 1.1 Information Gain Ratio 1.2 연속형 변수의 사용 1. C4.5 알고리즘 C4.5 알고리즘이 ID3알고리즘에 비해 개선된 점은 아래와 같이 요약할 수 있다. 정교한 불순도 지표 (Information gain ratio) 활용 범주형 변수뿐 아니라 연속형 변수를 사용 가능 1.1 Information Gain Ratio 앞서 ID3 알고리즘에서 설명했듯, 엔트로피 \(H(t)\)가 작을수록, \(t\).. 2022. 2. 24.
[ML] ID3 알고리즘, 엔트로피(Entropy) 이전에 업로드하였던 의사 결정 나무(Decision Tree)에서 조금더 세부적인 내용에 대해 정리하기 위해 글을 써본다. -목차- 1. ID3 알고리즘이란? 1.1 엔트로피(Entropy) 1.2 정보 획득량(Information Gain) 1. ID3 알고리즘이란? ID3 알고리즘은 의사 결정 나무 알고리즘의 한 종류로 Iterative Dichotomiser 3의 약자이다. Dichotomiser는 “이분하다”라는 뜻의 프랑스어로, 반복적으로 이분하는 알고리즘이라고 말할 수 있다. ID3 알고리즘은 불순도 지표로 엔트로피를 사용하며 독립변수가 모두 범주형 변수일 경우에 사용 가능한 알고리즘이다. 1.1 엔트로피(Entropy) ID3 에서 불순도의 지표로 엔트로피를 사용한다고 하였다. 그렇다면 엔트.. 2022. 2. 24.
의사결정 나무(Decision Tree) 이 글에선 한 번에 하나씩의 설명변수를 사용하여 예측 가능한 규칙들의 집합을 생성하는 알고리즘인 의사결정 나무(Decision Tree)에 대해 다뤄보도록 하겠습니다. 1. 의사결정 나무(Decision Tree)란? 의사결정 나무는 데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 나무와 같다고 해서 의사결정 나무라 불린다. 아래 예시를 보자. 위 예시는 운동경기가 열렸다면 PLAY = 1, 그렇지 않으면 Play = 0으로 하는 이진분류 문제이다. 모든 사례를 조사해 그림으로 도식화하면 위와 같은 그림이 될 것이다. 그림을 해석해보자면 날씨가 맑고(sunny), 습도(humidity)가 70 이하인 날엔 경기가 열렸다. 해당 조건에 맞는 데이터들이 '경.. 2022. 1. 7.