ヒトは人工知能が提示するオススメを、実直に信じるでしょうか。もし人工知能が根拠とともにオススメを提示するようになったらどうでしょう? 期待される「ニューロシンボリックAI」について木村研究員が解説します。
深層学習(ディープラーニング)は、自動Q&Aなど様々な分野へ応用され高い精度を提供していますが、一般的に大量の学習データを用意する必要があり、また、学習内容の人による説明や解析が困難です。そこで、ニューラルネットワークを用いた深層学習と、人が理解しやすい記号表現に基づくシンボリックAIを組み合わせた「ニューロシンボリックAI」の活用が期待されています。IBM東京基礎研究所では、ロボットの動作の学習などに応用される強化学習に対してニューロシンボリックAIの考え方を取り入れた手法を研究開発しました。既存の深層学習を用いた手法に比べて、学習効率が良く、説明可能性が高いことが、複数の実験結果から示されたこの手法について、本稿ではゲームの例を用いて解説します。
1. 概要
ここ10年の人工知能ブームを支えてきた深層学習(ディープラーニング)技術は、広い分野に応用されており、多種多様な問題に対して高い精度を記録しています。画像認識に応用された例では、画像識別や異常検知に[1,2]、強化学習に応用された例ではロボット操作や、ビデオゲーム[3,4,5]、テキストベースゲーム[6,7,8]などに応用されています。ところが、深層学習では、非常に多くの学習データが必要であり、また学習した知識に関する説明性が乏しくメンテナンスが容易ではありません。
図1: ニューロシンボリックAIの概要
そこで、学習中の知識を論理式などシンボルで記述しながら学習するAI(シンボリックAI)と、深層学習で利用されているニューラルネットワークで学習するAI(ニューラルAI)を組み合わせたニューロシンボリックAI(Neuro-Symbolic AI)が提案されました[9,10](図1) 。このニューロシンボリックAI手法を用いることで、深層学習が持つ知識の高精度性と、シンボリック学習が持つ効率的でかつ説明性の高い学習性を兼ね備えることが可能になります。
図2: ニューロシンボリックAIの応用例
現在ニューロシンボリックAIの応用例として、図2のような研究が存在しています。その中でも、本稿では、人の学習方法に近くロボットのコントロールなどにも活用されている「強化学習」という学習方式への適用例を紹介します。IBMは、ここで提案するニューロシンボリック強化学習手法を「Logical Optimal Action」(以降、LOA)と呼んでいます。提案手法LOAは、こちらもIBMで開発したニューロシンボリックニューラルネットワークであるLogical Neural Network(以降、LNN)[11]を学習機構として活用しており、強化学習における方策を効率的に学習しています。このLOAは学習したルールを視覚的に人が分かりやすいように表示する仕組みや、学習した知識を人が編集する仕組みを兼ね備えています。
本稿では、この手法を活用した2つの実験例を紹介します。1つ目は、LOAをテキストベースのゲームであるTextWorld[12]に応用した際の定量的な評価です。迷路中に床に置かれているコインをテキスト指示による動作(迷路中の移動など)により拾うゲームで評価しており、より少ない動作でコインを拾うことを目指しています。この評価では、既存の一般的な深層学習やニューロシンボリック手法と比較して、どれほど高速に学習できるかを示します。2つ目は、LOAを活用して、どれほど説明性が高くなったかを示したデモ実験です。物が散らかった部屋から整理整頓された部屋へ片付けるためのテキスト指示を生成するゲームで評価しており、少ない動作で整頓された部屋にすることを目指しています。この評価では、説明性や学習し終わったネットワークを編集する仕組みなどを示します。提案手法LOAの実装は、オープンソースとしてGithub上に公開[13,14]しており、IBM内外のさまざまな研究者による応用研究が進みつつあります。
2. 提案手法LOA
まず、提案するニューロシンボリック強化学習手法LOAにおいて、学習時に使用するニューロシンボリックなニューラルネットワークLNNについて説明します。その後、LOAの詳細について記述します。
図3: LNNの例
2.1. LNN
LNN[11]は、論理式を学習することができるニューラルネットワークです。図3にLNNで作成されているネットワークの例を示しています。このネットワークでは、ある生き物が「猫」であることを判断するネットワークを提供しており、「ほおひげ」と「尻尾」を持ち、「レーザーポインター」があるときにそれを「追いかける」場合には「猫」であることを表しています。
特徴として、従来のニューラルネットワークとは異なり、論理記号(論理積や論理和、否定、含意)を直接ネットワーク内に表現することが可能です。一方で、従来のニューラルネットワークと同様に、それぞれのニューロン同士の接続には重みがあり、その値を調整することで論理式を学習しています。LNNを用いて論理式を学習するときには、はじめに、複数の論理演算の候補を数種類用意しておき、入力に従い重みを調整することにより学習することで、様々な論理式の中からもっともらしい式を残すという戦略で学習します。一般的なニューラルネットワークでは、学習後のネットワークに説明性がなかったのに対し、LNNではこれらの特徴により、論理式を取り出すことができ、人が結果に対する理由などを理解することが可能になります。
図4: LOAの概要図
2.2. ニューロシンボリックAIを用いた強化学習(LOA)
ここでは、提案するニューロシンボリックAIを用いた強化学習の詳細を説明します。図4の概要図にて大まかなLOA手法の流れを説明しています。まずは入力文章を構文解析・意味理解によって論理事実に変換して、次にLNNへ入力して行動を決定するための論理式を学習します。図中のLNNは、迷路中のコインを拾うタスクの学習後のネットワークを示しています。
図中の点線「xがないか」、「xを訪れたか」については、「コインを手にしてまだ行ったことのない道を進む」という今回の迷路という設定においては、極めて必要性の低い選択肢であり、LNNとしてはその重みをゼロに近づけていることを表現しています。
提案手法では、はじめに、環境から現在の状況を表す観測テキストを取得します。次に、構文解析・意味理解を行う複雑な深層学習モデルに入力して、論理事実を取り出します。このとき、単語の意味などを持っている辞書ConceptNet[15]や、過去の行動履歴も参考にします。そして、LNNが持っているネットワークを用いて行動を算出します。図4は、連結された部屋(迷路)の中のどこかに置かれたコインを拾うゲームを対象としているため、現在の場所から行くことができる方角についての情報などを自然言語で得ることが可能になっています。なお、コインを探し出して拾うとゴールになります。詳しくは、[17]をご覧ください。図中の”Go x”に関する知識は、「x方向の道を発見して、かつx方向については過去に訪れたことがない方角であれば、x方向に進む」という行動を選択するということを示しています。もちろん初めは、これらのネットワークは全く学習されていませんが、環境とのやり取りの中から図のような目的となるネットワークへ学習していきます。
3. 実験
2つの実験結果を示します。1つはLOAと既存手法との比較であり、もう1つはLOAの説明性を高めたデモに関する結果です。
3.1. 実験環境
1つ目の比較実験では、先に出てきたコインを迷路の中から探して拾うタスクを用いて、2つ目のデモ実験では、部屋の片付けを行うタスクを用いて評価します。それぞれのタスクにおいて、3段階の難易度が定義されており、1つ目の比較実験では全ての難易度で比較を行い、2つ目の実験では人が実際にデモ操作を行うため最も簡単な難易度のみを使用しました。
3.2. 既存手法との比較
事前準備として、論理的な状態の候補:(1)それぞれの方角の部屋やコインが存在しているか(5種類)、(2)それぞれの方角の部屋は既に訪問済みであるか(4種類)、(3)それぞれの方角が初めて部屋に入室した際の方角と一致するか(4種類)、という13種類の状態を用意しました。なお、否定形も用意するため、26種類の論理事実となります。
そして、提案手法の有効性を検証するために、深層学習のみのLSTM-DQN++[6]と、他のニューロシンボリック強化学習手法NLM-DQN[16]との精度に関する比較をしました。また、提案手法中のLNNを通常のニューラルネットワークに変更したLOA-NNも用意しました。
表1: それぞれの手法およびゲームの難しさ、学習回数Epochにおける、50種類の未知ゲームに対する報酬(5回試行の平均)の変化(報酬は、0から1までの値を取り、1の場合は、ゲームを解けたことを意味しています。)
|
Easy game |
Medium game |
Hard game |
Epoch |
100 |
200 |
1000 |
100 |
200 |
2000 |
100 |
200 |
2000 |
LSTM-DQN++[6] |
0.07 |
0.10 |
0.12 |
0.00 |
0.00 |
0.03 |
0.00 |
0.00 |
0.04 |
NLM-DQN |
0.87 |
0.93 |
1.00 |
0.27 |
0.48 |
1.00 |
0.01 |
0.10 |
0.66 |
LOA-NN |
0.91 |
0.95 |
1.00 |
0.48 |
0.65 |
1.00 |
0.19 |
0.28 |
0.97 |
LOA (Ours) |
0.95 |
0.98 |
1.00 |
0.94 |
0.97 |
1.00 |
0.95 |
0.98 |
1.00 |
表1は実験結果を示しています。提案手法LOAが他手法に比べて、早い段階でゲームを解くことが可能なことがわかりました。特に、最も難しい「Hard game」においては、他手法では1.00に到達していない一方で、提案手法のみ到達しています。これらは、提案手法が待つ、論理式を直接学習できる仕組みが、学習の効率性を高めていることを示しています。
3.3. 説明性に対するデモ実験
図5: 提案手法と既存手法の結果を参照する画面
推奨する行動の的確性に関する考察
提案手法LOAには獲得したルールを、視覚的に表示する機能があります。一例として、現在の部屋の情報が自然言語で与えられ、常識情報(物をどこに置けばよいかを示した辞書など)も用いて、テキストのやり取りで片付けを行うとゴールとなるゲームについて示します。
図5の上部は「A.環境とのやり取り」を示しています。現在、浴室におり、使い終わったティッシュが床の上に落ちており、それを拾い上げた後であることが示されています。下部は、提案手法であるニューロシンボリック手法とディープラーニング手法について、「B.手法からの推奨行動」を表示しています。
そのティッシュをどこに入れるかについて、それぞれの手法が異なる場所を推薦しています。提案手法は”ゴミ箱に”、ディープラーニング手法は”シャワーに”入れることを推薦しており(シャワーに入れるという表現はわからないところでもありますが実際に出てきた結果であるのでそのまま表示しています)、提案手法の推薦の方が的確であると言えます。
図6: 提案手法LOAの説明性を示した画面
推奨する行動の説明性に関する考察
図6は、なぜ使い終わったティッシュを”ゴミ箱に”入れるという行動を推薦したのかについて理由を示している画面です。上部は先ほどと同様の「環境とのやり取り」で、下部には4つの表示領域があります。左上(①)の「①.行動選択画面」は、今回推奨する「使い終わったティッシュをゴミ箱に入れる」という行動を選択しています。左下(②)は、現在の論理状態を示しており、使い終わったティッシュを持っているという状態を示しています。右上(③)は、現在の状態と常識情報との差分を表示しています。図では、使い終わったティッシュは、ゴミ箱や紙くずかごに入れるのが良いといった常識情報が存在していることを示しています。最後に右下(④)は、LNNが獲得しているルールを示しています。具体的には<carry(x)> ∧ <at_location(x,y)> → <insert(x,y)>を示しており、すなわち、何か物体xを持っていて(carry)、物体xがある場所yに置くことが常識である場合(at_location)、物体xを場所yに入れること(insert)を推薦するという意味です。これらの4つの画面を確認することで、なぜLOAはその行動を推薦しているのかということを理解できます。
表2: 提案手法と既存のユーザーインターフェイスとのアンケート比較(左から、記載内容の理解に関する正答率、2つの中から良いと思う方を選んだときの割合、NPSの値)
|
Correctness |
Better UI |
NPS® |
Textual UI |
77.8% |
5.6% |
-50.0 |
Our graphical UI |
88.9% |
94.4% |
66.7 |
表2は、提案手法であるグラフィカルなUIと既存の文字ベースのUIとの比較アンケートの結果を示しています。すべての項目において、提案手法の方が高い値を取得しました。
4. まとめ
本記事では、説明性の高いニューロシンボリックAIの一例を紹介しました。現在、提案手法LOAは、Github上[13,14]で公開しており、改良研究や論文も募集しています。気になった方はぜひご覧ください。
ニューロシンボリックAIの他の研究プロジェクトにご興味ある方は、Neuro-Symbolic AI Toolkit [10]もご覧いただけますと幸いです。
[参考文献]
[1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton, "Imagenet classification with deep convolutional neural networks", NeurIPS, 2012.
[2] Daiki Kimura, Subhajit Chaudhury, Minori Narita, Asim Munawar, and Ryuki Tachibanam, "Adversarial Discriminative Attention for Robust Anomaly Detection", WACV, 2020.
[3] Volodymyr Mnih, et al., "Human-level control through deep reinforcement learning", Nature, 2015.
[4] Daiki Kimura, "DAQN: Deep Auto-encoder and Q-Network", arXiv, 2018.
[5] Daiki Kimura, Subhajit Chaudhury, Ryuki Tachibana, and Sakyasingha Dasgupta, "Internal Model from Observations for Reward Shaping", ICML workshop on Adaptive and Learning Agents, 2018.
[6] Karthik Narasimhan, Tejas D. Kulkarni, and Regina Barzilay, "Language understanding for text-based games using deep reinforcement learning", EMNLP, 2015.
[7] Xingdi Yuan, Marc-Alexandre Côté, Alessandro Sordoni, Romain Laroche, Remi Tachet des Combes, Matthew J. Hausknecht, and Adam Trischler, "Counting to Explore and Generalize in Text-based Games", arXiv, 2018.
[8] Subhajit Chaudhury, Sarathkrishna Swaminathan, Daiki Kimura, Prithviraj Sen, et al., "Learning Symbolic Rules over Abstract Meaning Representations for Textual Reinforcement Learning", ACL, 2023.
[9] Wandemberg Gibaut, et al., "Neurosymbolic AI and its Taxonomy: a survey", arXiv, 2023.
[10] "Neuro-Symbolic AI toolkit", https://ibm.github.io/neuro-symbolic-ai/
[11] Ryan Riegel, et al., "Logical Neural Networks", arXiv, 2020.
[12] Marc-Alexandre Côté, et al., "TextWorld: A Learning Environment for Text-based Games", arXiv, 2018.
[13] "Code for Logical Optimal Action", https://github.com/IBM/LOA
[14] "Code for Neuro-Symbolic Agent Demo", https://github.com/IBM/nesa-demo
[15] Robyn Speer, Joshua Chin, and Catherine Havasi, "ConceptNet 5.5: An Open Multilingual Graph of General Knowledge", arXiv, 2017.
[16] Honghua Dong, Jiayuan Mao, Tian Lin, Chong Wang, Lihong Li, and Denny Zhou, "Neural logic machines", ICLR, 2018.
[17]"Code for Coin-collector game in TextWorld", https://github.com/xingdi-eric-yuan/TextWorld-Coin-Collector
IBM、IBM ロゴは、米国やその他の国におけるInternational Business Machines Corporationの商標または登録商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点でのIBMの商標リストについては、https://www.ibm.com/legal/copyright-trademarkをご覧ください。
ProVision一覧はこちらから