ProVISION

これからの強化学習(vol97-0016-ai)

By IBM ProVISION posted Thu August 26, 2021 07:07 AM

  
Osogami.jpg 恐神 貴行 Osogami Takayuki
日本アイ・ビー・エム株式会社
東京基礎研究所
シニア・テクニカル・スタッフ・メンバー
1998年に入社以来、IBM東京基礎研究所で人工知能等の数理科学に関わる研究に従事。2005年、米国カーネギーメロン大学コンピュータサイエンス学科にて博士号取得。科学技術への顕著な貢献2020(ナイスステップな研究者)に選出。



囲碁やテレビゲームなどで人間のパフォーマンスを上回ったことで、強化学習技術が注目を集めるようになりました。データを集めて意思決定を最適化していくのが強化学習技術であり、分類や回帰など、入力から出力を予測することを目的とする機械学習技術とは適用先が異なります。強化学習技術は、ビジネスの変革にも大きな可能性を持っていますが、ビジネスにおける成功事例は、これまであまり多くありませんでした。本稿では、強化学習技術をビジネスに応用する際の困難を探り、この困難を乗り越えるために進められている研究の方向性を紹介し、ビジネスにおける強化学習技術の今後を展望します。


ゲームでの成功とビジネスへの応用

2016年3月、コンピュータ囲碁プログラムAlphaGoが、最強棋士の一人とされるイ・セドルに勝利しました。また、2015年には、Deep Q Networkという人工知能技術が、多数のテレビゲームタイトルにおいて人間を上回る高得点を出すことに成功しました。囲碁やテレビゲームでは、勝利や高得点などの最終的な目標を達成するように、各時点で観測される状態に応じて、最善の行動を逐次的に選んでいくことが求められます。このような逐次的意思決定を最適化するのが、AlphaGoやDeep Q Networkで使われている強化学習技術です。同様の強化学習技術は、1992年の時点で、バックギャモンというボードゲームで既に大きな成功を収めています。また、1997年にチェスの王者を破ったDeepBlue、2019年にポーカーのプロプレーヤーを破ったPluribusなどで使われた探索技術も強化学習技術と密接に関連しますが、その歴史は1950年代に遡ることができます。
このようにゲームを題材に発展してきた[1]強化学習技術ですが、ゲームのための技術というわけではありません。強化学習の基礎となる技術は、1960年前後に2つ提案されましたが、そのひとつの方策反復法はビジネスの実課題を解くために作られました[2]。方策反復法を提案したハワードは、その当時、コンサルティング会社のアーサー・D・リトルでアルバイトをしており、小売業のシアーズがカタログを顧客に送付する方策を最適化するプロジェクトに携わっていました。カタログ送付による目先の利益だけではなく、顧客がより利益をもたらすようになる長期の効果を考慮したカタログ送付を目標とし、そのような方策を求めるために作られたのが方策反復法です。これにより、年に数百万ドル程度(several million dollars)利益が上がったといわれています[2]。
強化学習技術の実課題への応用における大きな成功例に、ニューヨーク州における徴税支援があります[3]。税徴収のプロセスには複数の段階がありますが、強化学習技術を適用することで、長期的な累積納税額を最大化するように、各納税者の状態に応じて適切な行動をとっていくことができるようになります。このような強化学習技術を適用したシステムが2010年に稼働しましたが、この年の延滞税の徴収額が前年と比べて約83億円増加するなど、大きな効果が確認されています[3]。

このようにビジネスにおける必要性から生まれ、実課題で大きな成功も収めてきた強化学習技術ですが、そのような成功例はあまり多くありません。強化学習技術のビジネスにおける成功を妨げてきた2つの困難について以下で考察します。

困難1:許されない失敗

ゲームとビジネスの違いの一つに、どれだけ失敗を許容できるかがあります。学習中にどれだけ失敗しても、ゲームではあまり問題にはなりません。そのため、学習段階では失敗を恐れることなく楽観的に行動を選び、もし失敗しても、その失敗から学ぶことができます。失敗を許容できることから、失敗する可能性の高い危険な状況をも探索してデータを集めることができ、どの行動が失敗につながり、どの行動が成功につながりやすいかを学習していくことができます。
一方、ビジネスにおいては、学習データを集めるために失敗することがあまり許容できません。カタログ送付や徴税支援の事例においては、試行錯誤によって学習データを集めたのではなく、強化学習技術を適用する以前に人が行動を選んできた履歴を学習データとして使っています。このようにあらかじめ蓄えられている学習データを使って意思決定方策を最適化する強化学習技術をバッチ(またはオフライン)強化学習技術と呼びます。これに対して、ゲームで成功してきたオンライン強化学習技術は、学習された意思決定方策を用いて行動することで、さらに学習データを集め、その意思決定方策を改善していきます。


図1:オンライン強化学習とバッチ強化学習

ビジネスにおいては失敗を避けるように行動を選ぶ傾向があり、バッチ強化学習で用いる学習データには、失敗につながる危険な行動のデータはあまり含まれていません。また、失敗につながる可能性のある危険な状態も避けることから、危険な状態における行動のデータもあまり含まれていません。このように、ビジネスにおいてバッチ強化学習に用いられる学習データは安全側に偏っており、危険度が高い状態や行動において、学習データが特に少なく、不確実性が高くなっています。
この安全側に偏った学習データに基づいて、失敗を避ける方策を学習するのが、ビジネスにおけるバッチ強化学習技術の一つ目の困難です。ゲームにおけるオンライン強化学習では、学習中に失敗を避ける必要はなく、不確実な状況では楽観的に行動を選ぶことで不確実性を解消し、失敗した時にはその失敗から学び、最終的には失敗を避ける方策を学習できたのとは対照的です。

困難2:性能の評価

強化学習技術のビジネス応用のもう一つの難しさに、方策の評価があります。ゲームの場合には、学習された方策にゲームをプレイさせることで、その性能を評価できます。ビジネス応用においても、学習された方策を現場に適用し、A/Bテストのような形で注意深く実験を行うことで、その性能を評価することは可能です。ところが、学習された方策の性能が低かった場合には、損失が生じてしまうため、最終的に実験を行うとしても、その前にある程度の精度で性能を見積もることが求められます。
強化学習技術を適用する環境のシミュレータを構築できる場合には、学習された方策の性能をシミュレーションで見積もることができますが、そのようなシミュレータの構築は2つの点で困難です。まず、ビジネスの環境は複雑であり、精確にシミュレータで再現することができません。次に、ゲームのように閉じた環境と異なり、ビジネスの対象となる環境は外に開いており、シミュレータでは考慮できない部分が生じてしまいます。このようにシミュレーションには限界があり、ビジネスで必要とされる精度での性能評価には必ずしも十分ではありません。
強化学習技術を適用する環境のシミュレータ を構築せずに、学習された方策の性能を見積もることはできないのでしょうか?以下では、その可能性について考察してみます。
現在広くビジネスで応用されている、分類や回帰などの機械学習タスクにおいては、データを学習用とテスト用に分けておくことで、学習された機械学習モデルの予測精度をテストデータで評価することができます。このようなデータによる評価が可能なのは、分類や回帰が入力から出力を予測するタスクであり、データに入力と出力の組が含まれていることに依ります。すなわち、学習に使わなかったテストデータの入力を与えたときに、それに対応する出力を出せるかどうかで、学習された機械学習モデルの性能を評価することができます。
このような入力と出力の関係は、強化学習技術が用いるデータに含まれません。強化学習技術が用いるデータは、観測された状態(入力)・その状態でとった行動・その結果得られた即時報酬・その結果遷移した次の状態の4つ組からなる行動履歴です。このデータから学習される方策には、観測された状態(入力)に応じて、長期の利得を最大とするような行動を出力することが求められます。
長期的な利得を最大にする理想的なエキスパートの行動履歴がデータであれば、「その状態でとった行動」が望ましい出力であり、入力から出力を予測する機械学習のタスクに帰着されます。この模倣学習であれば、従来の分類モデルと同様にテストデータを用いることで、方策の性能を評価することができます。
これに対して、最適でない行動履歴から、長期的な利得を最大にする行動を予測することを目指すのが強化学習技術です。望ましい出力(エキスパートの行動)がデータに存在しないため、学習された方策の性能を、回帰や分類などの機械学習モデルと同じようには、テストデータで評価することができません。


図2:学習された方策の評価

困難を乗り越える研究

これらの困難を乗り越え、強化学習技術のビジネスへの応用の可能性を広げるために、現在様々な研究が行われています。
失敗例が十分にない学習データから「許されない失敗」を避ける方策を学習するには、不確実性の高い推論を避けるアプローチが有効であることがわかってきています。AをしたらBになり、BでCをしたらDになる、といった関係のデータから、Aの良さを推論し、学習していくのが強化学習技術です。このような学習のプロセスの中で、裏付けるデータが不十分な関係を推論に使う際にはペナルティを与えることで、Aの良さが不確実な時にはAが選ばれなくなるようにすることできます。すなわち、不確実な状況では悲観的に行動を選ぶことで、危険な行動を避けられるようになります。ゲームで成功したオンライン強化学習技術が、楽観的に行動を選ぶことで不確実性を解消するのとは対照的です。また、通常の強化学習技術が累積利得の期待値を最大化しようとするのに対し、稀であっても大きな損失を避けるような、リスクを考慮する強化学習技術も発展してきており、そのような技術を併せて用いることで、ビジネスに必要な安全性をより高められることも期待されます。
学習された方策の性能を評価するための、信頼できるシミュレータを構築するのが難しい場合には、回帰や分類の機械学習モデルのように、テストデータに基づいた「性能の評価」ができることが望まれます。回帰や分類のように「正解」がデータにないのが、強化学習における方策の性能評価の難しさですが、そのようなデータに基づいて方策の性能を評価するオフライン方策評価技術が発展してきています。オフライン方策評価技術は、評価したい方策に従って行動を選んでいった時の性能を、それとは異なる方策に従って集められたデータを用いて評価します。そのような評価が可能なのは、AをしたらBになり、BでCをしたらDになるという関係がデータにあるからで、そのような関係のデータから、評価したい方策に従って行動を選んでいったときに、どのように状態が変化し報酬が得られていくかを推定することができます。

強化学習技術によるビジネスの変革

これらの技術革新により、強化学習技術はゲームを題材とした実証の段階を超えて、ビジネスを変革する応用の段階に入ってきています。これまでの機械学習技術は、予測や分類結果を示すことで、人の意思決定を間接的に助けてきました。これに対して、強化学習技術は良い行動を推薦することで、人の意思決定を助けることになります。ここで推薦される行動は、学習データから最も良いと期待される行動であり、強化学習技術を適用する際に指定した評価指標を直接最大にする行動です。
この評価指標は、行動して即時に得られる利得ではなく、その行動によって期待される長期の累積利得とすることが強化学習技術の特徴です。このような長期の累積利得の最大化は、カタログ送付や徴税支援に限らず、どの産業でも幅広く応用の可能性があります。本稿をきっかけに、強化学習技術を適用する可能性やそのためのデータ蓄積について議論が広がれば望外の喜びです。

[参考文献]
[1] 恐神貴行:人工知能国際会議AAAI-20参加報告:論理的思考とゲームによる人工知能実現, IBM ソリューション ブログ, https://www.ibm.com/blogs/solutions/jp-ja/data_science_and_ai_aaai/
[2] Ronald A. Howard: Comments on the Origin and Application of Markov Decision Processes, Operations Research, Vol. 50, No. 1, pp. 100-102 (2002).
[3] 安倍直樹:ニューヨーク州の税徴収最適化について ―データ分析と最適化の融合―, ProVISION, No. 78, pp. 68-69 (2013), https://community.ibm.com/HigherLogic/System/DownloadDocumentFile.ashx?DocumentFileKey=dbd5a708-6d21-ec4e-8f3e-a9ff9ff11c8c



*ProVISION 記事一覧はこちらから
#ProVISION
#ai
#Highlights-home
#Highlights
0 comments
335 views

Permalink