[Machine Learning] 비지도 학습

2 minute read

기계학습은 지도 학습, 비지도 학습, 준지도 학습 세 가지 유형으로 구분된다.

오토인코더로 특징을 추출한다.

1. 지도 학습과 비지도 학습, 준지도 학습

기계 학습 종류	설명
지도 학습	지도학습은 훈련집합으로 특징 벡터와 레이블이 주어진다.
비지도 학습	비지도학습에서는 특징 벡터만 주어진다.
준지도 학습	레이블이 있는 데이터와 없는 데이터가 섞여 있울 때, 레이블이 없는 샘플까지 이용하여 성능을 높이는 방법

사전 지식 : 훈련집합이라는 명시적인 정보뿐만 아니라 세상의 일반적인 규칙으로부터 얻을 수 있는 암시적인 정보

사전 지식	설명
매니폴드 가정	데이터집합은 하나의 매니폴드 또는 여러 개의 매니폴드로 구성되며, 모든 샘플은 매니폴드와 가까운 곳에 있다.
매끄러움 가정	샘플은 어떤 요인에 따라 변한다.

지도 학습, 비지도 학습, 준지도 학습 모두 매니폴드 가정과 매끄러움 가정을 토대로 알고리즘을 설계한다. 지도 학습은 레이블 정보를 받으므로 목적함수가 학습 과정을 주도한다. 따라서 이 가정들은 목적함수의 모양과 특성을 규정하는 방식으로 암시적으로 나타난다. 반면, 비지도 학습이나 준지도 학습에서는 이 가정들을 좀 더 명시적으로 사용한다.

2. 비지도 학습

기계 학습 방식	적용 사례
지도 학습	분류 문제, 회귀 문제
비지도 학습	군집화, 확률밀도 추정, 공간 변환, 특징 추출, 차원 축소, 데이터 가시화

비지도 학습의 일반 과업	설명	발견하는 데이터의 내재 구조
군집화	유사한, 즉 특징 공간에서 가까이 있는 샘플을 모아 같은 그룹으로 묶는 일	데이터 내에서 군집
밀도 추정	데이터로부터 확률분포를 추정하는 일	데이터의 확률밀도 함수
공간 변환	데이터가 정의된 원래 특징 공간을 저차원 공간 또는 고차원 공간으로 변환하는 일	특정 목적을 달성하는 데 유리한 새로운 특징공간

비지도 학습의 응용 과업	설명
군집화의 응용	맞춤 광고
밀도 추정의 응용	분류, 생성 모델
공간 변환의 응용	데이터 가시화

3. 군집화

군집화의 분류	설명
경성 군집화	한 샘플이 하나의 군집에 속도로고 강제하는 방식
연성 군집화	샘플마다 군집에 속하는 정도를 다르게 하는 방식

군집의 개수가 주어지는 경우도 있지만, 군집의 개수까지 추정해야 하는 상황이 종종 있다. 군집화는 부류 발견 작업이다.

k-평균 알고리즘

군집의 개수 K를 3지정해야 한다.

친밀파 전도 알고리즘

샘플 간의 유사도로부터 책임 행렬과 가용 행렬이라는 두 종류의 친밀도 행렬을 계산하고, 이 정보를 이용하여 군집을 찾는 알고리즘

4. 밀도 추정

어떤 점에서 데이터가 발생할 확률, 즉 확률밀도함수를 구하는 문제

커널 밀도 추정

히스토그램 방법

\[P(x) = \dfrac{bin(x)}{n}\]

확률밀도함수가 매끄럽지 못하고 계단 모양을 띤다는 것이다.
칸의 크기와 위치에 민감하다.

커널 밀도 추정법

\[P_h(x) = \dfrac{1}{n} \sum_{k=1}^nk_h(\mathbf{m} - \mathbf{m}_k) = \dfrac{1}{nh^d}\sum_{i=1}^nK(\dfrac{\mathbf{x}-\mathbf{x}_i}{h}) \\ K_h(x) = \dfrac{1}{h^d}K(\dfrac{\mathbf{x}}{h})\]

가우시안 혼합

EM 알고리즘

5. 공간 변환의 이해

실제 기계 학습 문제에서는 특징 공간이 매우 고차원이며, 데이터 구조도 매우 복잡하고 다양하다. 따라서 사람이 데이터 구조를 보고 변환 방법을 설계하는 수작업 방식은 현실적이지 않고, 비지도 학습 알고리즘이 데이터의 구조를 스스로 파악하여 최적의 공간 변환을 알아내는 접근 방법을 사용해야 한다.

공간 변환 기법은 선형 인자 모델, 오토인코더, 매니폴드 학습으로 나눌 수 있다.

6. 선형 인자 모델

인자(잠복 변수, 은닉 변수) : 선형 인자 모델에서 현상으로 나타나지 않는, 즉 관찰되지 않는 변수

주성분 분석

독립 성분 분석

블라인드 원음 분리 문제 : 주어진 혼합 신호로부터 원래 신호를 복원하는 문제

희소 코딩

7. 오토인코더

특징 벡터를 입력받아 동일한 또는 유사한 벡터를 출력하는 신경망

입력층의 노드 개수와 출력층의 노드 개수는 동일하다.

규제 오토인코더

Space autoencoder(SAE)

Denoising autoencoder(DAE)

contractive autoencoder(CAE)

적층 오토인코더

오토인코더에서 은닉층을 여러 개 쌓아 깊은 구조로 확장한 구조

8. 매니폴드 학습

매니폴드 학습은 데어터 분포의 비선형 구조를 직접적으로 고려한다.

매니폴드 : 고차원 공간에 주어진 실제 세계의 데이터는 고차원 입력 공간에 내재한 훨씬 저차원인 d차원 매니폴드의 인근에 집중되어 있다.