2014.06.19
異常検出の最新動向
ポニーの群れからシマウマを探す
By エレン·フリードマン(MapR Technologies ビッグデータ・コンサルタント Apache Mahoutコミッター)
オライリー社の実践機械学習シリーズの第2弾、テッド・ダニング氏との共著「異常検出の最新」が今週発行されました。以前の著作ではレコメンデーションに対する実践的なアプローチを取り上げ、皆さんが「ポニーが必要である」と考えるというところから始めました。第2弾では、ポニーの群れにいるシマウマ、群れの動きに逆らって泳ぐ魚のような稀に起こりうる異常値の発見について考えます。今回の目的は、どのように実践的な機械学習システムを構築すれば異常を発見できるか探ることです。このシリーズの目標は、実際の現場で必要とされる作業を考慮して問題解決を探っていくことです。
なぜ異常検出を使うのでしょうか? この手法への需要は広がり成長し続けています。異常検出は、セキュリティに対する攻撃のような問題に有益なソリューションを提供し、ウェブサイトトラフィックに生じた異常を追跡します。あるいは、医療機器の読み込みに適切な警告を発し、医療機器使用中の薬剤の流れや、急速に拡大し続ける「モノのインターネット」における様々なセンサーのデータをモニターします。このような場合ですと、異常値が何であるか正確にはわからないかもしれませんが、それを探る必要があるのです。
異常検出とは何を探るのか分からないことを見つけることです
検出法を作る際に何を行いますか? 状況は様々ですし、異常検出ソリューションに対する必要なアプローチがそれぞれの状況によって異なりますが、開始の時点で共通するアプローチがあります。異なる点または異常がなにかを発見するために、まずなにが正常であるか理解しなければなりません。これが想像するよりも、特に複雑な状況よりも意外なことにシンプルな状況で困難なことかもしれません。この問題に対し、この本ではシンプルなアナロジー使って、どのようにして適応性がある確率的モデルを構築することで「正常」を見つけることができるか、そして次のステップである異常の検出方法について理解を深めてもらおうと試みています。重要な事は、自分が目にしている稀な出来事の正確な記述方法は知らないということです。そのかわり、正常に対する異常を定義するでしょう。
問題: この仮定された状況で、灰色は正常パターンを表しており、黒の線は正常の単純モデルです。Xは異常値です。誤検出をできるだけ少なくし、警告を発するしきい値は何に設定すればよいでしょうか。
いくつかの新しいアプローチを提示し、幅広い異なるタイプの異常検出を改善します。手作業で警告のための閾値の設定から、sporatic eventsのための検出などより複雑なアプローチが一般的な手法です。
例えば、一般的に用いられる閾値モデルにはいくつかの重大な問題があります。このシンプルな検出法を改善する最初のステップは、閾値設定方法を変えることです。その方法について、t-digestとして知られる新しいアプローチを用いて説明します。これは、MapRチーフアプリケーションアーキテクトであり今回の共著者であるテッド・ダニング氏が開発しオープンソースになっています。このt-digestは正確に極限変位値を評価する方法であり、異常を適切に検出するためのしきい値を設定するのに非常に便利です。このt-digestはApache Mahout、Elastic Search等でも使われています。Github上で使用でき、この本ではその方法について詳細に述べています。
異常取り除き主導と予算主導型プロジェクトとの実践的なトレード・オフについても述べています。周期的に変化するウェブサイトトラフィックにおける異常検出、公共用水施設のようなシステムおよびセキュアウェブサイトへのフィッシング攻撃での感知データに対し、どのように適応性のある確率的モデルと構築するか有用な指摘をしました。
実践的機械学習:異常検出の最新は電子書籍でダウンロードできます。6月3日から5日にサンノゼで開催されるHadoop Summitに参加するのでしたら、MapRのブースに足を運べば無料で手に入れることもできます。Hadoop Summitの3日と4日の午後4時から4時半の間はサイン会をしています。
同会場で4日午後2時35分からテッド・ダニング氏が異常検出についてのプレゼンを行います。テーマは「何を探すべきかわからないものを見つける方法:異常検出の実践」です。
テッド氏は4日午後5時25分から同会場で「HadoopとR Goを映像化:モーションビジュアライゼーション」についてもプレゼンを行います。
3番目のプレゼンは、同会場5日午後2時10分からで「アルゴリズムの重要性の決定方法」です。
このシリーズの第1弾をお持ちでないなら、こちらへどうぞ。実践機械学習:レコメンデーションの革新