2. 확률 분포
이 장에서 논의하는 분포의 역할들 중 하나는 한정된 수의 관찰 집합 $x_1, ..., x_N$ 이 주어졌을 때, 확률 변수 $x$의 확률 분포 $p(x)$를 모델링하는 것이다. 이를 밀도 추정(density estimation) 문제라 한다.
이 장의 목표를 위해 모든 데이터 포인트들을 독립적이며, 동일하게 분포(iid)한다 라고 가정한다.
밀도 추정 문제는 크게 2가지로 나누어 접근할 수 있다.
- 매개변수적(parametric) 접근법
- 비매개변수적(non-parametric) 접근법
1) 매개변수적(parametric) 접근법
이항분포, 다항분포, 가우시안(Gaussian)분포, 디리클레(Dirichlet)분포 등은 작은 수의 조절 가능한 매개변수에 의해 결정된다. 이 분포들을 이용하여 밀도를 추정하는 방식을 매개변수적 방법이라 한다.
이런 분포들로 밀도 추정을 한다는 것은 결국 적절한 매개변수 값을 구한다는 것을 의미한다.
빈도적 관점에서는 어떤 특정 기준을 최적화하는 방식으로 매개변수를 찾게 된다. 최적화 기준의 예로 가능도(likelihood) 함수가 있다.
베이지안적 관점에서는 매개변수에 대한 사전 분포를 바탕으로 관측된 데이터 집합이 주어졌을 때의 해당 사후 분포를 계산하는 방식으로 모 분포의 밀도를 추정한다. 이 과정에서 베이지안 정리를 사용하게 되고, 켤레 사전 확률(conjugate prior probability) 를 이용하여 사후 확률 분포가 사전 확률 분포와 동일한 형태로 만들어 주어 사후 확률을 보다 단순하게 추정할 수 있다. 이러한 켤레 사전 확률 분포들은 모두 지수족(exponential family) 에 속하며 이 분포들의 성질도 살펴본다.
2) 비매개변수적(non-parametric) 접근법
매개변수적인 접근법의 한계점 중 한 가지는 분포가 특정한 함수의 형태를 띠고 있다고 가정하므로 몇몇 적용 사례에는 적합하지 않을 수 있다. 이럴 경우 비매개변수적 방법으로 밀도 추정을 할 수 있다.
비매개변수적 밀두 추정 방식은 분포의 형태가 데이터 집합의 크기에 종속적이다.
이러한 모델들은 여전히 매개변수를 가지고 있지만, 이 매개변수들은 분포 형태를 직접적으로 결정짓는 것이 아니라 모델의 복잡도에 영향을 미친다. 이러한 매개변수를 초매개변수(hyperparameter)라고 부른다.
이번 장에서는 히스토그램, kNN(최근접 이웃), 커널을 바탕으로 한 비매개변수적 방법에 대해 살펴본다.