データ分析(データマイニング)の体系

データ分析の全体像を理解する上で、役に立つフレームワークにCRIS-DM(CRoss-Industry Standard Process for Data Mining)という標準方法論があります。CRIS-DMはSPSS、NCR、ダイムラークライスラー、OHRAがメンバーとなったコンソーシアムで開発された方法論で、データマイニングの手順を規定したものです。2008年以降、更新されておらず(2015年現在)、実務としてあまり参照されないためか、実際のデータマイニングの本等で紹介されることは少ないですが、全体感を理解する上ではわかりやすい手法ですので、ここで引用します。。

CRIS-DMによると、によると、データマイニングの手順は以下の6つのフェーズを繰り返し行うものとされています。

フェーズ1 ビジネスの理解(Business Understanding)

・分析のビジネス目的と課題の理解、仮説の構築など

フェーズ2 データの理解(Data Understanding)

・初期データの収集、コード・数値の定義の理解、充足率・データ品質の評価など

フェーズ3 データの準備(Data Preparation)

・収集したデータのクレンジング、分析用データストアへの投入など

フェーズ4 モデリング(Modeling)

・クロス集計、統計分析、機会学習などの分析手法を活用したデータ分析など

フェーズ5 評価(Evaluation)

・モデルの整合性確認、結果の評価、施策の抽出、ビジネスインパクト評価など

フェーズ6 展開(Deployment)

・分析結果の可視化、恒常的なモデリングの仕組みの構築など

フェーズ1で「ビジネスの理解」をするということと、データをいきなり分析するのではなく、その前にフェーズ2「データの理解」とフェーズ3「データの準備」というフェーズが入っているという点がポイントです。

筆者も実際にDWHやBIのプロジェクトを実施することがあるのですが、ビジネスの理解、データの理解を正しくしないと、結果として作ったDWHやBIから提供される情報自体に意味がなくなるということもあり得ますので、ビジネスの理解、データの理解には非常に慎重に取り組みます。

また、実際のデータは、データを発生させる業務システム側で、担当者が正しく運用していないケース(運用負荷が高くて運用されていない、実害がないのでマスターデータが登録されていないなど)や、例外運用がなされているケース(イベントの際には通常運用以外の運用がされている)もあるため、これらのデータの取り扱いを決めてデータをきれいにするのに多大な時間をかけています。

データ分析においても同様にこれらの前処理が重要なようです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です