クラスタリングでアノマリ検知メモ

9月のSecMLでクラスタリングを使ったアノマリ検知をどうやっているか等について話をする関係で少し調べものをしていて見つけたネタをメモしておく。

オライリーのAdvanced analytics with SparkにKMeansでアノマリ検知をする章がある。以前に何となく読んではいたんだけど、結局最終的に何をもってクラスタリング結果と「アノマリかどうか」を結びつけているんだっけ?と思い読みなおした。

Now, we can make an actual anomaly detector. Anomaly detection amounts to measuring a new data point’s distance to its nearest centroid. If this distance exceeds some threshold, it is anomalous.

だそうで、「クラスタの中心からの距離がある閾値を超えたらアノマリだ」というごくシンプルな方法だった。

僕がやっているのはそもそもあるクラスタについては全部アノマリかもしれない、というシチュエーションである。そのため「そのクラスタに所属したらアノマリ」「むしろ中心に近かったら超アノマリ」みたいなことになるのでこの本のケースとは異なるな、とわかった。

メモおしまい。

Advertisements