AI(人工知能)プロジェクト② ~もうすぐ目的地へ

AI(人工知能)プロジェクト② ~もうすぐ目的地へ

前回のブログでは、西海岸を目指して出向しました。現在はようやく、中間地点のハワイに着いた頃合いです。
<前回のおさらい『AI(人工知能)プロジェクト① ~いざ迎える出港の時』>

今回のブログではAIマシンに対し、どのようにデータを加工すればよいのか、AI業界ではデータクレンジング、特徴エンジニアリングと言われる前処理と呼ばれる部分について、お話させていただきます。

データを活かすための2つの重要なポイント

データをAIマシンに投入しさえすれば、そのまま分析結果が得られるとお考えの人は、このブログを読まれている読者の方ではいないのではないでしょうか。
ただ、どの点が重要なのか、どういった処理を事前に行うべきなのかを返答できるという方は少ないかもしれません。

私は次に挙げる二点が重要であると考えています。

  1. 作成する数理モデル(=アルゴリズム)にデータ形式を合わせるということ
  2. きちんと整理されたデータに成形するということ

では、それぞれを深掘りしていきましょう。

なぜデータは加工が必要なのか

まずは一点目「アルゴリズムにデータ形式を合わせるということ」から、もう少し具体的に説明していきましょう。
コグニロボ社ではどのモデルを採用するかについて、滋賀大学のデータサイエンス教育センターの “モデルパラメーターの推定方法” の第一人者の教授に、当方の構想(※)を説明した後、最適なモデルを構築していただいております。
(※詳細は次回以降のブログにてご紹介いたします)
ここで当然、モデルの検証をする必要があります。
この時点ではモデル自体が調整される、つまり微調整ながらも変更される可能性があるということです。

そして二点目「きちんと整理されたデータに成形するということ」についても解説いたします。
企業のデータといえども、多種多様なケースがあります。
例えば以下のようなデータが考えられます。

  • 「0」または「1」のデータ
  • 欠損値が含まれるデータ
  • 連続値のデータ
  • 「1」対「1」のデータ
  • 「1」対「複数」というデータ

多くの企業では、そのビジネス(事業)の規模やタイミングに応じて、データベース(テーブル)が複数にまたがっているといった事実も、よりデータを多種多様とさせている要因ですね。

そしてAIによる分析後、これらの多種多様なカラム(項目)を追加したい、または削除したいといったリクエストもあることでしょう。
さらには、企業のマーケティングやビジネスの観点より、いくつかのカラムを1つにまとめたい(束ねたい)という要望が生じることも考えられます。

これらのデータは必ずしも単純なものでないために、最初にこのデータで分析しようとしたところで、編集する必要もあれば、修正を要することが必ず起きるということです。

データ形式は固定できないものと考えるべき

重要なポイントとして挙げだ二点で共通する部分は、最初の時点ではデータ形式を固定できないということです。
つまり微調整しながらも、将来的に変更する可能性があり、それを見据えておく必要があるということです。

モデルを決定する前に、モデル自身を検証しなければならないのが一点目のケース。
そして分析結果で少しでも成果を上げるため、不必要なデータを削除したりする作業や、重複するデータをまとめる作業を本番分析前に実施したものの、分析後にデータ形式を変更せざるをえないのが二点目のケースになります。
いずれにしても、最初に固定していたデータを都度、必要に応じて修正を行っているような方法では、時間もコストもかかってしまいます。

そこでコグニロボ社ではRAW(生)データと、必要とするデータの中間的な意味合いを持つ「中間データ」を構築して進めております。
つまり、中間データは半製品のような概念としており、必要に応じたデータ仕様を最初から作るのではなく、この中間データから生成するイメージです。

あなたにおすすめ

AI自動記事作成Articooloのアルゴリズムは日本語を学習できるか?... (注:本原稿は、ShowcaseCapitalが投資を行うイスラエルのAIスタートアップArticooloに関する記事です。ShowcaseCapitalの本投資については、こちらのリリースを御覧ください) AI自動記事作成Artic...
記事とデザインを自動で作成するAI(人工知能)サービスまとめ... AI(人工知能)のせいで職を失うことに常時恐怖を覚えているbitWave編集部です。さて、まだ「ライティングなどのAI化は必ず実現するけど、まだサービスとするには早い」と思ってましたが、実際には、文章やデザイン面でもかなりの数のAI搭載ツー...
AI(人工知能)プロジェクト③ ~ようやく目的地へ... ようやくAIプラットフォームの第1弾の実装、及び検証が終わりました。 より正確にお伝えするのであれば、プラットフォーム上に搭載する一つのAIソリューションの実装が完了したということです。 プラットフォームはいつでも拡張できる設計にし...
描いた絵を判定するだけじゃない!!|「Quick, Draw」が実施していたトンデモ実験... かつて「Quick, Draw!」というサイトで公開されている “手描きの絵をAIは判定できるのか” というニューラルネットワークの実験を4名のbitWaveライター陣を対象に試してみたことがありました。 <bitWave関連記事『Can...