データマイニングで利用されるツール

データマイニングを始めるといっても、世の中には様々なツールが存在します。

データマイニング系情報サイトKDnuggets(http://www.kdnuggets.com/)が、毎年、データサイエンティスト(KDnuggets上では、Data Minerという表現がされています)にアンケートを実施し、利用されているツールのシェアを公開している情報があります。以下は2015年に発表されたトップ10ツールですが、どのようなツールが主に利用されていることがわかります。

  • RapidMiner
    • オープンソースのデータマイニングツール。スタンドアローンのデータ分析アプリケーションとして、また統合されたデータマイニングエンジン。
  • R
    • 有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフト。
  • Excel
    • Microsoft社の表計算ソフト。統計分析アドインやピボットテーブル、Excelと統合されたMicrosoft BIなどを使ってデータを分析することができる。
  • SQL
    • 本来はリレーショナルデータベース管理システムにおいて、データの操作や定義を行うための問い合わせ言語。一般的な言語のため近年では、様々なツール・プラットフォームで利用できる。
  • Python
    • オープンソースのプログラム言語。高速な数値計算ライブラリが存在し、昔から科学技術コンピューティングによく利用されている。
  • Weka
    • ニュージーランドのワイカト大学で開発した機械学習のフリーソフトウェア
  • KNIME
    • 「ナイム」と読む。ドイツの Konstanz大のバイオ系の部門が開発したデータ分析用の統合環境。
  • Hadoop
    • 大規模データの分散処理を支えるオープンソースのソフトウェアフレームワーク。アプリケーションが数千ノードおよびペタバイト級のデータを処理することが可能。
  • SAS base
    • Statistical Analysis Systemの略。SAS社の統計計算ソフトウェアの1つです。SAS言語で書かれたプログラムを実行することでデータ分析を行う。医療、医薬の世界で特によく利用されている。
  • Microsoft SQL Server
    • Microsoft社のリレーショナルデータベース管理システム。近年は他のデータベース同様に、分析をサポートする機能が強化されてきている。

というようにトップ10を見てみても様々なツールが存在します。用途によって使い分けるのが適切なのですが、次から特に代表的なツールについて見ていきます。

出典:「KDnuggets 15th Annual Analytics, Data Mining, Data Science Software Poll(2014年6月7日発表)」および「 KDnuggets Annual Software Poll(2013年6月3日発表)」より作成

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です