クラスタリングでアノマリ検知メモ

9月のSecMLでクラスタリングを使ったアノマリ検知をどうやっているか等について話をする関係で少し調べものをしていて見つけたネタをメモしておく。

オライリーのAdvanced analytics with SparkにKMeansでアノマリ検知をする章がある。以前に何となく読んではいたんだけど、結局最終的に何をもってクラスタリング結果と「アノマリかどうか」を結びつけているんだっけ?と思い読みなおした。

Now, we can make an actual anomaly detector. Anomaly detection amounts to measuring a new data point’s distance to its nearest centroid. If this distance exceeds some threshold, it is anomalous.

だそうで、「クラスタの中心からの距離がある閾値を超えたらアノマリだ」というごくシンプルな方法だった。

僕がやっているのはそもそもあるクラスタについては全部アノマリかもしれない、というシチュエーションである。そのため「そのクラスタに所属したらアノマリ」「むしろ中心に近かったら超アノマリ」みたいなことになるのでこの本のケースとは異なるな、とわかった。

メモおしまい。

Advertisements


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s