ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来

ディープラーニングだけがAIじゃない。トピックモデルの第一人者に聞く機械学習の未来

ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。

ディープラーニングは、人間の脳の中のニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能に注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。

しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向をつかみ、文書を幾つかのカテゴリーに自動分類する手法だ。このトピックモデリングも、近年急速に進歩してきているといわれる。トピックモデリングとはどんな技術なのか。最近ではどのような研究が最先端なのか。第一人者のコロンビア大学David Blei教授に話を聞いた。

同教授によると、トピックモデリングでは文書を単語の集合ととらえ、同じ文書内に出現することが多い単語に注目する。例えば大量の新聞記事をコンピューターに読み込ませると、「ボール」という単語が含まれる記事の中には、「バット」や「ベース」「ヒット」などといった単語も含まれている確率が高く、「オバマ大統領」という単語が含まれる記事の中には「上院」「選挙」「政策」「政府」などといった単語が含まれる確率が高いことが分かる。そこで、「ボール」や「バット」という単語を含む記事を1つのカテゴリーに、「オバマ大統領」や「上院」という単語を含む記事を別のカテゴリーに分類することができるのだという。言うまでもなく前者のカテゴリーはスポーツ記事で、後者のカテゴリーは政治記事だ。

この考え方をベースに、統計学的、数学的手法を使って洗練させたのがトピックモデリングで、同教授によると「完全に自動でトピックを見つけ出します。単語の意味が分からなくても、1つの文書内に2つの単語が同時に含まれることが多ければ、これらの単語は特定のトピックと関連しているということが分かる。日本語でももちろん機能します」と語る。

同教授がトピックモデリングの研究を始めたのは15年ほど前。同教授たちが最初にLDAと呼ばれるトピックモデルを開発したころは非常にシンプルなものだったが、そのモデルが基礎になり次々と高度なモデルが開発されてきているという。

「2003年ごろから、この領域の研究が盛んになりました。企業、研究者、政府機関が大量の文書をネット上で公開し始めたということが背景にあると思います」。


▶より多くのデータ、より幅広い領域へ

トピックモデリングは今、主に3つの方向に進化しようとしているという。1つはスケーラビリティ。2010年以前は、トピックモデルが扱える文書の数は10万件が限度。大型コンピューターを使っても50万件ほどの文書した扱えなかった。しかし新しい計算式が開発されたおかげで、最高で10億件の文書まで解析できるようになったのだという。

2つ目の進化の方向は、ストリーミング。「データが継続的に流れ込んできても対応できるトピックモデルの研究が盛んです」。ニュース原稿が次々と流れてきても、トピックモデリングのアルゴリズムが自動的に微調整され続ける。そういうことを可能にするモデルの研究が進められているのだという。

3つ目は、応用分野の拡大。「今最も興味深いトピックモデリングの研究は、コンピューターが専門ではない研究者の手で行われています」。同教授によると、社会学者や、人文学者、歴史の研究者、言語学、政治学などの研究者たちが、新しいトピックモデリングの手法を開発しようと研究を続けているのだという。政治学者は、演説や法案を分析するのが主な仕事。トピックモデリングを利用することで、無数の演説や法案といった文書の中身を自動的に解析し、それらの文書と投票結果の相関性など分析するためのモデルの研究が進んでいるのだという。社会科学のデータサイエンス化が進んでいるわけだ。

またBlei博士自身は、2つの研究領域に注力しているという。1つは、文書解析データとユーザー行動データの相関性の研究。例えば本の内容と、その本の購買データに、どのような関係性があるのかを探っている。「ユーザー行動データを取り込むことで、文書自体の内容をよりよく理解できるようになるかもしれない。どういう人がこの本を読んでいるのか、典型的な読者はこの本のどういうところに興味を持っているのか、ということも分かるようになるかもしれない。こうした領域は、われわれが今、熱心に挑戦している領域です」。

もう1つは、デキストデータ以外のデータへの応用。「トピックモデリングは、今は文書の解析に使われています。でも同じ考え方、同じ手法が、画像の解析にも使えるのではないかと考えています。文書では繰り返し現れるトピックのパターンを見つけ出そうとするわけですが、画像でも繰り返し現れる絵のパターンを見つけ出せれば、画像の内容が理解できるはずです。ほかにも、ソーシャルネットワークや集団遺伝学などのデータも、トピックモデリングの手法を使って解析できるようになるのではないかと思って研究を続けています」。


▶ブレークスルーが起こるのはこれから

こうした方向にトピックモデリングが進化していけば、どのような社会が待ち受けているのだろうか。

「大量のパーソナライゼーションが行われているでしょうね。情報はパーソナルにフィルターされるようになるでしょう。われわれはもっと効率的になるし、もっと情報を持つようになると思います。また機械学習の領域は今、注目を集めているので研究者は増えるだろうし、その結果、もっと進化すると思います」。

「それだけじゃありません。AIと機械学習は、科学を大きく変えることになります。遺伝学、神経学、社会科学は、大量のデータを取り扱います。なので、これらの学問領域は、これから機械学習を使って急速に進展すると思います。もちろんまだまだ課題はありますが、10年以内にそれらの課題は解決されるだろうと思っています。その結果、人類の知識は急速に拡大し、いろいろと新たなブレークスルーが起こることになると思います」。機械学習やAIの進化は、科学全体の底上げにつながる可能性があるわけだ。これからありとあらゆる科学が急速に進歩する時代に入ろうとしているのかもしれない。

注目のディープラーニングについても聞いてみた。「トピックモデリングを含む近似理論的機械学習は、データから推測し、推測の中でデータがどのように見えるか、という手法です。一方で、ディープラーニングは脳の回路を参考にして作られた手法。まったく違うところから生まれた手法ですが、どちらも隠れたパターンを認識しようという狙いは同じ」。「なので今は確かに研究者コミュニティは別々に存在しますが、互いに論文は読んで参考にし合っています。ディープラーニングと近似モデルのいいところを両方合わせることで、よりいいものができるはずです。技術的に言うと、ディープラーニングのアルゴリズムと、近似理論モデルをスケールアップする方法は、同じstocastic optimizatonと呼ばれるアルゴリズムです。実は、両方の手法には既に似ているところががあるわけです」。


【お知らせ】
この記事はBLOGOSメルマガ「湯川鶴章のITの次に見える未来」の無料公開分の記事です。取材の全文は有料版のほうでご覧いただけます。

湯川塾28期は「人工知能xバイオ」。事前募集が始まっています。

David Blei教授がRecruit Institute of Technology(RIT)のアドバイザーに就任されたことを受け、リクルートさんの依頼を受け取材に米国まで行ってました。取材の動画は現在準備中のRITのサイトに掲載される予定で、リクルートさんに関する質疑応答に関しては、そちらのサイトでご覧ください。