2010年代半ばからの第3次AIブームでは、コンピューターの処理速度の進展などの恩恵を受けて、いわゆる「ディープラーニング」と呼ばれるニューラルネットワーク技術が発展。2020年代に入った現在では、すでに各方面で活発に応用されつつある。
特に、進展が著しいのが画像認識であり、その実力はすでにヒトのそれを抜き去るレベルにある。たとえば医療分野においては、CT画像やMRI画像などから、小さながんを発見する正確さは、すでに医師を回るとされ、実際に医師のがん診断のサポートとして貢献するようになってきている。
このように画像認識AIの精度は非常に高くなっており、もはや人間の追従を許さない領域に入りつつあるが、一方で融通が利かない点が大きな課題となっている。融通が利かないとは、画像が少しでも修整されると、たとえ多数のサンプル画像を用いてよく訓練されたAIだったとしても、認識に失敗してしまう場合もあるという点だ。それも、ヒトの目には変化したように見えないような、たった1ピクセルの変化があるだけでもAIは混乱してしまう場合もあるという。このロバスト(堅牢)性のなさが課題となっているのだが、なぜこのような現象が起きるのか、そのメカニズムはほとんどわかっていなかった。
そこで、そのような欠点を克服するため、九州大学大学院 システム情報科学研究院のヴァスコンセロス・ヴァルガス・ダニロ准教授らの研究チームは今回、ニューラルネットワークが未知の要素をどのように扱うのかを評価する手法を開発することにしたという。その結果を2022年7月27日に、米オンライン科学誌「PLOS ONE」に発表した。
ダニロ准教授らは、まずこのロバスト性に欠けている原因を探るため、さまざまな画像認識AIを調査し、AIが学習していない、つまりAIにとって未知のサンプルに直面したときの挙動にパターンを見出すことを目指したとする。
AIに画像を与えると、AIは正しいか間違えているかに関わらず、それが何であるかをはんだんし、回答しようとする。そこで、現在最もよく使われている12種類のAIに対し、基本的には、AIにヒントやトレーニングを与えずに一連の画像を与える「Raw Zero-Shot Learning」という新手法を適用したという。ダニロ教授らは、AIの回答には相関性があり、その画像が何であるのかを間違った判断をした場合、同じような間違い方をするはずだという仮説を立てて、実験を実施した。
そして結果は、まさにその仮説の通りだった。どのような場合でも、画像認識AIが出した回答は、間違っていても一貫しており、要は「クラスター化する」ことが確認されたのである。これはモデルの出力が複数の集合を形成していることを示しており、つまりデータのパターン化が行われているということだという。また、このことはAIが一貫した答えを出せば出すほど、少し変わった画像に対しても強くなることを示すとした。
各クラスターの密度は、異なる要素に基づく知識を持つAIが、未知の要素をどのように処理するかが示されている。この未知の要素を処理するために学習した知識の「伝達性」は、AIが少し加工された画像を処理する方法にもつながっているとする。
12種類のAIの中では、最も密なクラスターを生成して伝達性が高い、つまりロバスト性があったのが「Capsule Networks」(CapsNet)だ。これは、CapsNetが動的な性質を持つためではないかと考えられるとする。
現在のAIは精度が高い反面、ロバスト性に欠けるため、さらなる実用化が困難だという。実用化のためには、何が問題なのか、なぜそうなっているのかを理解する必要があるとする。ダニロ教授らは、今回の研究では、これらの問題を解決するための可能な戦略を示せたとする。精度だけにこだわるのではなく、ロバスト性と柔軟性を向上させる方法を検討する必要があり、そうすれば、真の人工知能を開発できるかもしれないとしている。
サイエンスライター:波留久泉(D)
(画像出典元:九州大学2022年7月29日プレスリリース)