-
이 장에서는 대표적인 차원 축소 알고리즘인 PCA, LDA, SVD, NMF에 대해서 알아보겠습니다.
차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소(sparse) 한 구조를 가지게 됩니다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우, 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 또한 피처가 많을 경우 개별 피처 간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 '다중 공선성' 의 문제로 모델의 에측 성능이 저하된다.
이렇게 매우 많은 다차원의 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있다. 가령 수십 개 이상의 피처가 있는 데이터의 경우 이를 시각적으로 표현해 데이터의 특성을 파악하기는 불가능하다. 이 경우 3차원 이하의차원 축소를 통해 시각적으로 데이터를 압축해서 표현할 수 있다. 또한 차원 축소르 ㄹ할 경우 학습 데이터의 크기가 줄어들어서 학습에 필요한 처리 능력도 줄일 수 있다.
일반적으로 차원 축소는 피처 선택(feature selection)과 피처 추출(feature extraction)로 나눌 수 있다.
-피처선택(Feature selection), 즉 특성 선택은 말 그대로 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것이다.
-피처추출(Feature extraction)은 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것이다. 이렇게 새롭게 추출된 중요 특성은 기존의 피처가 압축된 것이므로 기존의 피처와는 완전히 다른 값이 된다.
피처 추출은 기존 피처를 단순 압축이 아닌, 피처르 ㄹ함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것이다. 가령, 학생을 평가하는 다양한 요소로 모의고사 성적, 종합 내신 성적, 수능 성적, 봉사활동, 수상경력 등과 관련된 여러 가지 피처로 되어 있는 데이터 세트라면 이를 학업 성취도, 커뮤니케이션 능력, 문제 해결력과 같은 더 함축적인 요약 특성으로 추출될 수 있다. 이러한 함축적인 특성 추출은 기조 ㄴ피처가 전혀 인지하기 어려웠던 잠재적인 요소(Latent factor)를 추출하는 것을 의미한다.
이처럼 차원 축소는, 차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출하는 데에 있다. 매우 많은 차원을 가지고 있는 이미지나 텍스트에서 차원 축소를 통해 잠재적인 의미를 찾아 주는 데 이 알고리즘이 잘 활용되고 있다.
차원 축소 알고리즘이 자주 사용되는 또 다른 영역은 텍스트 문서의 숨겨진 의미를 추출하는 것이다. 문서는 많은 단어로 구성되어 있다. 문서를 만드는 사람은 어떤 의미나 의도를 가지고 단어를 사용하게 된다. 일반적으로 사람이ㅡ 경우 문서르 ㄹ읽으면서 이 문서가 어떤 의미나 의도를 가지고 작성됐는지 쉽ㄱ ㅔ인지하 ㄹ수 있다. 차원 축소 알고리즘은 문서 내 단어들의 구성에서 숨겨져있는 시맨틱(Semantic) 의미나, 토픽(Topic)을 잠재 요소로 간주하고 이를 찾아낼 수 있다. ㄴ