AI(人工知能)プロジェクト② ~もうすぐ目的地へ

AI(人工知能)プロジェクト② ~もうすぐ目的地へ
■ 店頭より得で、予約しやすいオンラインショップ。
 → ドコモオンラインショップ
 → auオンラインショップ
 → ソフトバンクオンラインショップ

前回のブログでは、西海岸を目指して出向しました。現在はようやく、中間地点のハワイに着いた頃合いです。
<前回のおさらい『AI(人工知能)プロジェクト① ~いざ迎える出港の時』>

今回のブログではAIマシンに対し、どのようにデータを加工すればよいのか、AI業界ではデータクレンジング、特徴エンジニアリングと言われる前処理と呼ばれる部分について、お話させていただきます。

データを活かすための2つの重要なポイント

データをAIマシンに投入しさえすれば、そのまま分析結果が得られるとお考えの人は、このブログを読まれている読者の方ではいないのではないでしょうか。
ただ、どの点が重要なのか、どういった処理を事前に行うべきなのかを返答できるという方は少ないかもしれません。

私は次に挙げる二点が重要であると考えています。

  1. 作成する数理モデル(=アルゴリズム)にデータ形式を合わせるということ
  2. きちんと整理されたデータに成形するということ

では、それぞれを深掘りしていきましょう。

なぜデータは加工が必要なのか

まずは一点目「アルゴリズムにデータ形式を合わせるということ」から、もう少し具体的に説明していきましょう。
コグニロボ社ではどのモデルを採用するかについて、滋賀大学のデータサイエンス教育センターの “モデルパラメーターの推定方法” の第一人者の教授に、当方の構想(※)を説明した後、最適なモデルを構築していただいております。
(※詳細は次回以降のブログにてご紹介いたします)
ここで当然、モデルの検証をする必要があります。
この時点ではモデル自体が調整される、つまり微調整ながらも変更される可能性があるということです。

そして二点目「きちんと整理されたデータに成形するということ」についても解説いたします。
企業のデータといえども、多種多様なケースがあります。
例えば以下のようなデータが考えられます。

  • 「0」または「1」のデータ
  • 欠損値が含まれるデータ
  • 連続値のデータ
  • 「1」対「1」のデータ
  • 「1」対「複数」というデータ

多くの企業では、そのビジネス(事業)の規模やタイミングに応じて、データベース(テーブル)が複数にまたがっているといった事実も、よりデータを多種多様とさせている要因ですね。

そしてAIによる分析後、これらの多種多様なカラム(項目)を追加したい、または削除したいといったリクエストもあることでしょう。
さらには、企業のマーケティングやビジネスの観点より、いくつかのカラムを1つにまとめたい(束ねたい)という要望が生じることも考えられます。

これらのデータは必ずしも単純なものでないために、最初にこのデータで分析しようとしたところで、編集する必要もあれば、修正を要することが必ず起きるということです。

データ形式は固定できないものと考えるべき

重要なポイントとして挙げだ二点で共通する部分は、最初の時点ではデータ形式を固定できないということです。
つまり微調整しながらも、将来的に変更する可能性があり、それを見据えておく必要があるということです。

モデルを決定する前に、モデル自身を検証しなければならないのが一点目のケース。
そして分析結果で少しでも成果を上げるため、不必要なデータを削除したりする作業や、重複するデータをまとめる作業を本番分析前に実施したものの、分析後にデータ形式を変更せざるをえないのが二点目のケースになります。
いずれにしても、最初に固定していたデータを都度、必要に応じて修正を行っているような方法では、時間もコストもかかってしまいます。

そこでコグニロボ社ではRAW(生)データと、必要とするデータの中間的な意味合いを持つ「中間データ」を構築して進めております。
つまり、中間データは半製品のような概念としており、必要に応じたデータ仕様を最初から作るのではなく、この中間データから生成するイメージです。

もう少し噛み砕いてご説明すると、「A地点」から「B地点」経由で、ゴールである「C地点」に向かっていたとします。
しかし、目的地である「C地点」に着いたものの、目的地を「D地点」に変更したいということがあります。
これが上記で説明した、“最初に固定したデータ仕様が変わる可能性がある(変更になる)” ということです。

そうなったとしても、できる限り時間もコストもかけず、効率よく分析を進めるには、スタートである「A地点」にわざわざ戻らず、経由地「B地点」に戻り、変更後の目的地「D地点」行きに乗り換えるという概念です。
「A地点」をRAW(生)データ、「C地点」や「D地点」を分析するためのデータ、そして「B地点」を中間データという風に捉えていただければご理解いただけるのではないでしょうか。

この記事がWebサイトに掲載されている頃には、AIプラットフォームに検証するためのデータサンプルができ上がっていることでしょう。

いよいよ、この船旅もそろそろ最終章へ ――
次回は、待ちに待ったAIプラットフォームの完成です。

お客様やパートナー様からは少しでも早く、デモンストレーションでもいいので見てみたいとのお声をいただいており、とても嬉しい限りです。
ご協力頂いている皆さま、感謝申し上げます。次回に続く。。。

■最新のiPhoneの購入・機種変更なら店頭より得で、予約しやすいオンラインショップ。
機種の頭金や使わないオプションパックをつけて年間何万円も損していませんか?
オンラインショップなら故障のサポートもしっかりしていて最低限の費用。待たされることもありません。
 → ドコモオンラインショップ
 → auオンラインショップ
 → ソフトバンクオンラインショップ

最新のiPhoneを得して乗り換えるなら、
キャッシュバックキャンペーン実施中!【おとくケータイ.net】
がお得です。

以下の記事も読まれています。