主成分分析を図を使ってイメージする

 主成分分析とは、「データの次元を削減し、データの特徴を捉えやすくするために用いられる手法」です。主成分分析のイメージを図から感覚的に捉えてみましょう。

   

 図示可能な3次元データを例として用います。以下のような3次元データが得られたとします。


この3次元データを違う方向から見ると、ある平面上付近にデータが集まっていることがわかります。

よって、この平面上に新たな2軸を作成すると、今回の3次元のデータは2次元データとして捉えることが可能となります。

すべてのデータが平面上にはないので、平面に対して垂直方向のずれ(情報)は捨てることになりますが、

“平面上付近にデータが分布する”というデータの大きな特徴は捉えることができています。(主成分分析では、元のデータの80~90%の情報は残るように次元を調整します。)

このように、主成分分析では、新たな軸を設けて、次元を削減することによって、データの特徴をより簡略的に捉えることが可能となります。