潜入・人工知能学会①|「インタラクティブ情報アクセスと可視化マイニング研究会」に参加してみた ~riceman’s view編

潜入・人工知能学会①|「インタラクティブ情報アクセスと可視化マイニング研究会」に参加してみた ~riceman’s view編

去る3月4日、人工知能学会が主催するイベント『インタラクティブ情報アクセスと可視化マイニング研究会』の第15回発表会に参加してきました。
<参照:sigam『インタラクティブ情報アクセスと可視化マイニング』>

開催場所はなんと日本の最高学府、東京大学っ!!

これまで幾多のセミナーには参加してきましたが、このような研究会への参加は初体験。そして赤門ではないものの、天下の東大の校門をまたぐのも初めて。

 果たして私たちが参加することで得られるものはあるのか?
 そもそもにして、理解が難しいのではないか?

様々な懸念が頭をよぎりましたが「知らぬは一生の恥」の精神でいざ参加!!
結論から言えば「思ったほど難しい内容ではなく、思ったより実務的な内容」といった印象でした。

これはみなさんに共有せねば……ということで、今回はこの研究会で発表された内容の中で、ricemanの心に刺さった発表内容を抜粋して4つご紹介させていただきます。

<編集部より>
「riceman」同様、本研究会に参加した「岡村 公平」の記事も週明け公開です。併せてご一読ください。

心に残ったテーマ①『分散表現を用いた有害表現判別に基づく炎上予測』

<参考資料:http://must.c.u-tokyo.ac.jp/sigam/sigam15/sigam1501.pdf

このチームの研究テーマは『SNS上で投稿される悪口などの書き込みから事前に炎上が起こりそうな投稿を機械学習を用いて予測する』というもの。

なお、このチームが実践している機械学習での学習方法は「Word2Vec」を用いているそうです。
まず「Word2Vec」とは、単語をベクトル空間上に置き換えることで、近い意味(ベクトル上近い距離)の言葉を探し出したり、「男→女」や「王→女王」のような似たような向きの情報を調べることのできるニューラルネットワークのことを意味しています。

本発表でとても面白かったのが、評価実験においてうまくいかなかった部分も共有してくれる点。
今回の仕組みも「wwwww」などのネットスラングをうまく検知することができなかったということですが、とても良い提案だなぁと思いました。

心に残ったテーマ②『データマイニングとテキストマイニングの連携によるデータ分析支援』

<参考資料:http://must.c.u-tokyo.ac.jp/sigam/sigam15/sigam1503.pdf

コチラのチームの発表テーマは『データマイニングとテキストマイニングは今まで別々に扱われていたけど一緒にしたらもっとより良くなる!』というもの。
今回はお見せできませんが、実際のデモ動画を見てみたらめちゃくちゃ面白い!!

例えばこんな表があるとしましょう。何かの商品のレビューだと思ってください。

ID性別評価コメント
114小さくて使いやすい
225お風呂場で使えそう
324音が静か
414置き場所に困らない
525バスルームに重宝しそう
............

これまではこの表で言うところの、「評価から左」と「コメント」の部分を分けて扱われることが多かったのですが、合わせて考えることで以下のような点も見えてきます。

  • 大前提として評価が「4」以上のものに絞り込まれている
  • 単語の出現頻度を見てみると「コンパクト」や「お風呂場」が多い
  • 5の評価の人の性別を見てみると「女性」が多い

これらを関連付けて見ると、「お風呂場で女性が使う商品」としてもっと良いものができるのではないか、といったリサーチがソフトウェアで直感的に操作できるというものです。

実際には、こんなにちゃんとした形式のデータを扱っているケースは少ないのですが、これをSNSやAmazonからとることができたら面白い展開も期待できますね。
それにしても、みなさんにこのデモ動画を見せてあげたかった……。

心に残ったテーマ③『密度に基づく時空間分析システムにおける 学習済み深層ネットワークを用いた画像分類』

<参考資料:http://must.c.u-tokyo.ac.jp/sigam/sigam15/sigam1505.pdf

ざっくり言うと『TwitterなどのSNSからの投稿情報で、天気に関するツイートと写真の投稿をより高精度に判定できる手法の提案』というものでした。

その手法の中で「SVM(サポートベクトルマシン)」とディープラーニングの「VGG-16」というネットワークモデルが頻出してきます。
例えばGoogleの「Inseption v3」などを始めとするネットワークモデルが世の中には多数の存在しいるわけですが、この「SVM」や「VGG-16」もある特定の画像分類のために使用するネットワークモデルであると早とちりしていました。
しかし、発表内容によれば『ImageNetは一般的な内容の画像データを含んでおり、「VGG-16」は画像データの様々な分析に応用可能な汎用知識を学習できていると言われている』とのこと。つまり特定の画像の分類だけでなく、様々な画像の識別に使えるネットワークモデルであるということなんですね。

ちなみに発表者はこの「VGG-16」の出力層の一つ手前の15層に出てくるベクトルデータを利用し、「投稿された画像が、天気に依存するのなのか、関係のないものか」を仕分けしていました。

他サイトの引用になりますが、下記ブログ内の「2. VGG16が抽出した特徴を使って多層パーセプトロンを学習する」と同じアプローチになるのかと思います。
<参照:人工知能に関する断創録『VGG16のFine-tuningによる犬猫認識 (2)』>
こんなことできるんですね。知らなかった……。

心に残ったテーマ④『Twitterを用いた感染症発生動向の視覚化』

<参考資料:http://must.c.u-tokyo.ac.jp/sigam/sigam15/sigam1508.pdf

最後にご紹介する4つ目のテーマは『Twitterなどの書き込みから病気の発生を予測して、マップに表示する。さらに今までの他の方法にプラスして、投稿者の前後の書き込みから位置情報も特定してみる!』というものです。

この提案を実現するために必要なアプローチは2つあります
・書き込みの情報から病気の真偽性を判断する
・書き込みの情報から住所情報を正しく抜き取る

前者の “病気の真偽性判断” での場合、「インフルエンザで寝込んでいる」は病気にかかっていますが、「インフルエンザ怖い」はまだ本人は病気にかかっていないと言えます。

後者の位 “位置情報の特定” の場合は、「もうそろそろ東京に帰れそう」は東京に住んでそうですが、「東京バナナ買った」は東京に住んでいなそうであると推測できますよね。
これらをTwitter内のツイートから前後関係を判断し、正確に抽出するという発表でした。

評価実験の中で面白かったのが、「“子供と同じ幼稚園の子供が、おたふく風邪にかかっている” という内容のツイートにより、“本人じゃないのに病気にかかっている” と判断してしまったので修正したい」という発表でした。

しかし、他の聴講者の方の質問で、「感染症発生動向の視覚化という意味では病気にかかっているという判断でもいいのでは?」というものがありました。
確かにその通りです。これであれば発症のみならず、発症予備軍(もしくは潜伏期間内)にあると考えられますし、この結果を持って対策を練るといった使用例も生まれてきますね。

このTwitterからの検知という技術を使えれば病気のみならず、詐欺事件や他の予防処置を実施する必要性ような事案に対して非常に有効なのではないでしょうか。まだまだアイデアが眠っていそうですね。

ちなみに発表者とは別の方の制作物にはなりますが、既存研究として「インフルくん」というWebアプリケーションを紹介されていました。これはこれで秀逸でしたので下記に共有させていただきます。
<参照:『インフルくん ~NLP Flu Warning』>

人工知能学会の研究会に飛び込み参加してみて感じたこと

今回は4つのテーマに絞らせてご紹介させていただきましたが、すべての研究発表のどれもが刺激的でした。
そしてすべての研究発表内容を大別すると2つになります。
・「データ(SNSなどのビッグデータ)」を見やすく扱いやすくするインターフェースの提案
・不確定な情報や、ゆらぎのあるデータから正確な情報を抽出する方法の提案

つまり、データを「見やすく、わかりやすく、操作しやすく」という感じです。

そう、ショーケース・ティービーの “おもてなし” の理念と非常に通じている部分があるではないですか!?
<参照:ショーケース・ティービー企業サイト『企業理念』>

その他、感じたことを書き連ねています

  • 大学の発表と侮るなかれ、とても実用的なアイデア。もう少し展開ができれば、サービスとしてリリースできる感じがした。
  • 用意されていた資料と、プレゼンテーションで聞いた内容とでは理解の幅が大きく違った。分かりやすい!
  • 競合調査(既存研究)や評価実験が必ず明記されていたため、信憑性を伴う比較が容易だった。
  • 既存研究の発表の際、「〇〇ら」みたいな表現(例:ricemanら)が、大学の研究らしいなと思いました。
  • 「Word2Vec」と「SVM」はどこでも使われている印象を受けた。
  • 椅子の座り心地が良かった。それにひきかえ会社の椅子は……
  • とにかく面白く、刺激的。4時間半もあったようですが、まったく時間が気にならないレベル!

他にも土日を使った面白そうな研究発表会はたくさんあることでしょう。
ぜひ、みなさんも参加して、ガンガン吸収してくださいね!

コメント