Attention please

[ISLR] 통계학습(statistical learning)이란? 본문

ISLR

[ISLR] 통계학습(statistical learning)이란?

Seongmin.C 2023. 5. 5. 18:43
728x90

통계학습(statistical learning)이란?

통계학습(statistical learning)은 데이터에 대한 이해를 위한 방대한 도구 집단을 의미합니다. 현실세계에 존재하는 정보를 컴퓨터가 이해할 수 있도록 구조화를 시킨 것을 데이터라 하며 그만큼 데이터의 종류는 다양합니다.

 

데이터를 이해하기 위한 도구는 크게 지도(supervised)학습비지도(자율)(unsupervised) 학습으로 분류할 수 있습니다. 지도 학습은 1개 이상의 입력변수를 기반으로 출력변수를 예측하거나 추정하는 것을 의미하며, 이는 비즈니스, 의학, 천체 물리학, 공공 정책 과 같은 다양한 분야에서 사용됩니다. 반대로 비지도 학습은 지도 학습과 다르게 출력변수가 따로 존재하지 않으며 오직 입력변수만이 존재합니다. 그렇기에 보통 자료의 상관관계나 구조를 파악하는데 주로 사용됩니다.

 

통계학습을 알아가기 전에 먼저 데이터가 어떻게 구성되는지 파악할 필요가 있습니다. 

 

 

위 식은 데이터의 관계를 보여주는 가장 일반적인 형태이며, $ X(x_{1}, x_{2}, ..., x_{p}) $ 는 입력변수(input variables), 예측변수(predictors), 독립변수(independent variables), 특성(features) 라고 불립니다. $ Y $는 결과변수(output variable), 반응변수(response variable), 종속변수(dependent variable) 이라고 불립니다. 

 

우리는 입력변수들을 토대로 종속변수를 예측 혹은 추정하는 것이 목표이며, 이는 $ f $ 를 추정하는 것과 같습니다. 이와 같이 $ f $ 를 추정하기 위한 방법들의 모임을 통계학습이라고 합니다.

 

또한 $ \varepsilon $ 의 경우 랜덤 오차(random error) 이며, 평균이 0이고, 예측변수와 독립입니다. 즉, 아무리 완벽하게 $ f $를 추정한다고 하여도 정확한 반응변수를 알아내는 것은 불가능하다는 것을 보여줍니다. (부작용의 위험성은 그날 환자의 기분이나 상태에 따라 달라질 수 있다.)

 

 

 

 

 

 

 

축소 가능한 오차 vs 축소 불가능한 오차

위에서 말했던 것처럼 $ \hat{f} $ 로 $ f $ 를 완벽하게 추정하는 것은 힘들지언정 축소하는 것은 가능합니다. (축소 가능한 오차) 하지만 아무리 $ f $ 를 완벽하게 추정하여 $ \hat{Y} = f(x) $ 의 형태가 되었어도 예측값은 여전히 오차를 포함합니다. 이는 오차항 $ \varepsilon $ 역시 $ Y $ 의 함수이기 때문에 $ f $를 잘 추정하더라도 $ \varepsilon $에 의해 도입된 오차를 줄이는 것은 불가능합니다. (축소 불가능한 오차)

 

 

위 식은 평균제곱오차(mean squared error)의 형태이며, MSE라고 불립니다. MSE를 줄인다는 것은 그만큼 오차가 줄어든다는 것을 의미하고 이는 $ \hat{f} $ 가 $ f $ 를 잘 추정한다는 것을 의미합니다. 하지만 위의 식 만으로는 MSE의 결과가 이해하기 어려울 수 있으니 좀 더 자세하게 들여다 보겠습니다.

 

 

위 식을 보면 $ E(\varepsilon^{2}) $ 이 $ Var(\varepsilon) $ 으로 유도되었습니다. 이에 대한 식은 다음과 같습니다.

 

 

 

 

 

 

 

 

 

예측 vs 추론

그렇다면 왜 우리는 $ f $ 를 추정해야 할까요? $ f $ 를 추정하는 이유는 크게 예측추론으로 나눌 수 있습니다.

 

만약 인구학적 변수의 값으로 우편 홍보에 긍정적으로 행동할 소비자를 찾아내고자 한다면 이는 예측에 초점을 두고 있다할 수 있습니다. 즉, 결과만 좋다면 과정은 상관없다라고 한다면 예측을 추정의 이유라고 할 수 있습니다. 

 

반대로 어떤 매체가 매출에 기여하는지, 어떤 매체를 늘렸을 때 매출이 얼마나 증가하는지와 같은 상황은 추론의 전형적인 예시로 들 수 있습니다. 즉, 결과가 아닌 과정에 관심이 있다는 뜻이죠. 

 

추정을 하는 이유를 알아야 그에 맞는 전략을 세울 수 있습니다. 만약 추론에 초점을 맞춘다면 아무래도 해석이 쉬운 모델을 사용하는 것이 더 유리할 것입니다. 그렇기에 $ f $는 단순하고 해석이 가능한(interpretable) 모형을 선택해야 할 것입니다. (ex. 선형모델) 반대로 예측에 초점을 맞춘다면 $ f $는 해석은 어렵지만 높은 정확도를 가진 복잡한 모형을 선택하는 것이 더 유리하겠죠. (ex. 비선형모델)

 

 

 

 

 

 

 

 

어떻게 $ f $를 추정하는가?

우리의 목적은 통계학습방법을 통해 훈련 데이터를 적용하여 알려지지 않은 함수 $ f $를 추정하는 것입니다. 다시 말하면, 임의의 관측치 $ (X, Y) $ 에 대해 $ Y \approx \hat{f}(X) $ 을 만족하는 함수 $ f $를 찾고자 하는 것이죠. 이를 위해 사용할 수 있는 대부분의 통계학습방법들은 모수적(parametric) 또는 비모수적(non-parametric)으로 특정지을 수 있습니다.

 

모수적 방법은 $ f $의 형태를 가정한 후 추정을 하는 것을 의미합니다. 예를들어 $ f $가 $ x $에 대해 선형적이라고 가정한다면 $ f(x) = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ... + \beta_{p}x_{p} $ 의 형태로 가정하는 것과 같으며, 이런 경우에는 $ p+1 $ 개의 계수 $ \beta_{0}, \beta_{1}, \beta_{2}, ..., \beta_{p} $ 만 추정하면 되겠죠.

 

모수적 방법은 함수 $ f $를 추정하는 문제를 단순화 합니다. 임의의 $ f $를 적합하는 문제를 선형모델의 파라미터 $ \beta_{0}, \beta_{1}, \beta_{2}, ..., \beta_{p} $ 추정하는 문제로 바뀌기 때문입니다. 하지만 이는 가정한 모델이 $ f $의 실제 모형과 너무 다르게 되면 추정이 정확하지 않을 수 있다는 단점이 존재합니다. 

 

물론 위 문제를 해결하기 위해 다양한 함수 형태에 적합할 수 있는 유연한 모델을 선택할 수 있습니다. 이때 유연한 모델이란 필요한 파라미터 수가 많다는 것을 의미합니다. 하지만 반드시 유연한 모델을 사용하는 것이 바람직한 방법은 아닙니다. 너무 모델이 유연해지면 오차나 노이즈를 면밀히 추적하여 overfitting 문제가 발생할 수 있습니다.

 

 

위 그림을 보면 가상 자료에 대한 $ f $를 추정하기 위해 총 2가지 모델을 가정한 것을 확인할 수 있습니다. 선형회귀 적합은 모수적 방법의 한 종류이며, 스플라인 적합은 비모수적 방법의 일종입니다. 선형회귀 적합에 비해 스플라인 적합이 보다 더 정확히 추정하는 것을 볼 수 있습니다.

 

그림 2.5에 비해 그림 2.6은 더 거친 적합을 보여주며 평활 정도가 낮습니다. 이는 추정에 방해가 되는 노이즈와 오차를 과대적합하게 되며 새로운 데이터가 들어왔을 때 오히려 정확도가 떨어지는 overfitting 문제를 초래할 수 있습니다.

 

반대로 비모수적 방법은 임의의 함수 $ f $의 형태를 가정하지 않습니다. 함수 형태를 가정하지 않기에 넓은 범위의 $ f $형태에 적합할 수 있다는 장점을 가집니다. 하지만 모수적 방법과 달리 $ f $를 추정하는 문제를 적은 수의 파라미터 추정 문제로 단순화하지 않기 때문에 $ f $에 대해 정확한 추정을 하기 위해서 많은 수의 관측치가 필요하게 됩니다.

 

 

728x90
Comments