不良を発見する異常検知手法①

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。
 
 
製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。
 
 
LOF(Local Outlier Factor)は異常検知のアルゴリズムの一種です。
 
 
LOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
下図は、ある2次元のデータに対してLOFを適用し、異常度を算出した例です。
数値が高いデータは疎であることが分かります。
異常度は、1つのデータ(点)に対する近傍点群を収集し、
それらまでの距離や密度を計算することで算出します。

  
 
欠点は以下です。
・疎密であることを利用しているため、データ数を多く必要とする。
・近傍点までの距離を1点ずつ計算するため、計算コストが高い。
 
欠点はありますが、アルゴリズムは単純であり、
分かりやすく、説明し易いです。
よって、手法のベンチマークでも良く見かけられる手法でもあります。