본문 바로가기
머신러닝, 딥러닝/Regression

[ML] 회귀(Regression)

by Deeppago 2022. 2. 26.

1. 회귀(Regression)이란?

회귀는 현대 통계햑을 떠받치고 있는 주요 기둥 중 하나이다.  통계학 용어를 빌리자면 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다.

예를 들어 아파트의 방 개수, 방 크기, 주변 학군, 등 여러 개의 독립변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지를 모델링하고 예측하는 것이다.

\(Y = W_1*X_1 + W_2*X_2 + W_3*X_3 + ... + W_n*X_n\)이라는 선형 회귀식을 예로 들면 \(Y\)는 종속변수, 즉 아파트 가격을 뜻한다. 그리고 \(X_1, X_2, X_3, ..., X_n\)은 방 개수, 방 크기, 주변 학군 등의 독립 변수를 의미한다. 그리고 \(W_1, W_2, W_3, ..., W_n\)은 독립변수 값에 영향을 미치는 회귀 계수(Regression coefficients)이다.

머신러닝 관점에서 보면 독립변수는 피처에 해당되며 종속변수는 결정 값이다. 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이라고 할 수 있다.

 

회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있다. 회귀에서 가장 중요한 요소는 바로 회귀 계수이다. 아래 표를 보자.

독립변수 개수 회귀 계수의 결합
1개 : 단일 회귀 선형 : 선형 회귀
여러 개 : 다중 회귀 비선형 : 비선형 회귀

 

지도학습은 두 가지 유형으로 나뉘는데, 바로 분류와 회귀이다. 분류와 회귀의 차이점은 예측값이 카테고리와 같은 이산형 클래스 값이고, 회귀는 연속형 숫자 값이라는 것이다. 여러가지 회귀 중에서 선형 회귀가 가장 많이 사용된다.

대표적인 선형 회귀 모델은 아래와 같다.

  • 일반 선형 회귀 : 예측값과 실제 값의 RSS(Redisual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularizaion)을 적용하지 않은 모델
  • 릿지(Ridge) : 릿지 회귀는 선형 회귀에 L2 규제를 추가한 회귀 모델이다.
    • L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 비용 함수에 회귀 계수에 대한 L2 norm을 더한 형태로 학습된다.
  • 라쏘(Rasso) : 라쏘 회귀는 성형 회귀에 L1 규제를 추가한 회귀 모델이다.
    • L1 규제는 비용 함수에 회귀 계수에 대한 L1 norm을 더함으로써 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는것이다.
  • 엘라스틱넷(ElasticNet) : L2, L1 규제를 함께 결합한 모델이다.
  • 로지스틱 회귀(Logistic Regression) : 로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모델이다.  주로 이진 분류를 위해 많이 사용된다. 로지스틱 회귀가 선형 회귀와 다른 점은 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(Sigmoid) 함수 최적선을 찾고 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정한다.
  • 회귀가 선형인가 비선형인가는 독립변수가 아닌 가중치 변수가 선형인지 아닌지를 따르기 때문에 로지스틱 회귀 또한 선형 회귀 계열이다.

댓글