AppleのAI研究チームは、大規模言語モデルの推論能力に重大な弱点があることを明らかにした新しい研究を発表しました。研究は、OpenAIやMetaなどの主要な言語モデルを評価し、これらのモデルが数学的推論課題をどれだけ扱えるかを調査しました。その結果、質問の表現を少し変更するだけでモデルのパフォーマンスに大きな差が生じ、論理的一貫性を求められる状況における信頼性が損なわれることが示されました。Appleは、言語モデルが本物の論理的推論ではなく、パターンマッチングに依存しているという問題に注目しています。
研究では、無関係な情報を質問に加えることで、数学的な結果に影響を与えない情報であっても、モデルが大きく異なる答えを出す様子が確認されました。例えば、ある人が数日間に収集したキウイの数に関する単純な数学問題で、キウイのサイズについての無関係な詳細を加えると、OpenAIのo1やMetaのLlamaが最終的な合計を誤って調整しました。研究者たちは、形式的な推論の証拠は見つからず、モデルの振る舞いは高度なパターンマッチングによって説明されると結論付けています。このような推論の脆弱性は、AIアプリケーションが実世界で一貫した正確な推論を必要とする場合に懸念材料となります。
研究によると、テストした全てのモデルは、無関係と思われる入力データの変動に直面するとパフォーマンスが大幅に低下しました。Appleは、AIがより正確な意思決定と問題解決能力を得るために、神経ネットワークと伝統的な記号ベースの推論を組み合わせる「神経シンボリックAI」が必要であるかもしれないと提案しています。