본문 바로가기

분류 전체보기128

고유값 분해(Eigen-Value Decomposition) -목차- 1. 배경 지식 1.1 행렬은 벡터들의 모음 1.2 행렬의 각 열의 상수를 인수분해 하는 방법 2. 고유값 분해(Eigen-Value Decomposition) 3. 대칭 행렬의 고유값 분해 1. 배경 지식 1.1 행렬은 벡터들의 모음 \(n\)개의 \(n\)차원 벡터 \(a_i \in \mathbb{R}^{n \times 1}\) \(for\,i = 1,2,..., n\)이 있다고 생각해보자. 그러면 이 \(n\)개의 벡터들을 모아 \(n\times n\) 차원의 행렬을 구성할 수 있다. \[A = \begin{bmatrix}|& | & & | \\a_1&a_2& ... & a_n \\| & | & & | \\\end{bmatrix}\in \mathbb{R}^{n\times n} \] 1.2 .. 2022. 2. 28.
[ML] 주성분 분석(PCA) 1. PCA(Principal Component Analysis) 개요 PCA는 가장 대표적인 차원 축소 기법이다. PCA는 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분(Principal Component)을 추출해 차원을 축소 하는 기법이다. PCA로 차원을 축소할 떄는 기존 데이터의 정보 유실이 최소화 되도록 차원을 축소한다. 이를 위해서 PCA는 가장 높은 분산을 가지는 데이터의 축을 찾아 이 축으로 차원을 축소하는데 이것이 PCA의 주성분 분석이 된다. 즉 분산이 데이터의 특성을 가장 잘 나타내는 것으로 간주하는 것이다. 100명의 학생들이 국어 시험과 영어 시험을 봤다고 생각해보자. 영어 시험이 조금 더 어려웠고 그 결과 중 일부는 대략적으로 다음과 같았다고 하자. 국어 점수.. 2022. 2. 27.
[ML] 회귀(Regression) 1. 회귀(Regression)이란? 회귀는 현대 통계햑을 떠받치고 있는 주요 기둥 중 하나이다. 통계학 용어를 빌리자면 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다. 예를 들어 아파트의 방 개수, 방 크기, 주변 학군, 등 여러 개의 독립변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지를 모델링하고 예측하는 것이다. \(Y = W_1*X_1 + W_2*X_2 + W_3*X_3 + ... + W_n*X_n\)이라는 선형 회귀식을 예로 들면 \(Y\)는 종속변수, 즉 아파트 가격을 뜻한다. 그리고 \(X_1, X_2, X_3, ..., X_n\)은 방 개수, 방 크기, 주변 학군 등의 독립 변수를 의미한다. 그리고 \(W_1, W_2, W_3, ... 2022. 2. 26.
[ML] 의사결정 나무(Decision Tree) CART 알고리즘 이전에 업로드에서 의사결정 나무의 알고리즘인 C4.5 알고리즘에 대해서 정리하였다. 이번에 소개할 CART 알고리즘은 불순도 지표를 엔트로피가 아닌 지니 계수를 사용하며, 분류 문제와 회귀 문제에 모두 적용할 수 있는 알고리즘이다. 파이썬 기반의 오픈 ML 라이브러리인 사이킷런(scikit-learn) 에서는 이러한 결정 트리를 위한 API를 제공한다. DecisionTreeClassifier와 DecisionTreeRegressor가 그것이다. DecisionTreeClassifier는 분류를 위한 클래스이며 DecisionTreeRegressor는 회귀를 위한 클래스이다. 사이킷런의 결정 트리 구현은 이번 글에서 소개할 CART알고리즘 기반이다. 아래 코드는 DecisionTreeClassifier를.. 2022. 2. 24.