AppleのAI研究チームが発表した新しい研究によると、大規模言語モデルの推論能力に大きな弱点があることが明らかになりました。この研究では、OpenAIやMetaなどの主要な言語モデルを評価し、数学的推論タスクの処理能力を調べました。その結果、質問の表現をわずかに変更するだけでモデルの性能に大きな違いが生じ、論理的一貫性が求められる場面での信頼性が損なわれることが示されました。特に、言語モデルは真の論理的推論ではなく、パターンマッチングに依存していることが指摘されています。
研究では、無関係な情報を質問に加えると、数学的な結果に影響を与えるはずのない詳細があっても、モデルの回答が大きく異なることが示されました。例えば、キウイの収穫数を問う簡単な数学問題に対して無関係な詳細が加わると、OpenAIのo1やMetaのLlamaのようなモデルは最終的な合計を誤って調整しました。言語モデルにおいて正式な推論の証拠は見つからず、その行動は高度なパターンマッチングによって説明されると結論付けられました。名前を変更するだけで結果が約10%変化するなど、その推論の脆弱さが示唆されました。
この研究によると、テストした全てのモデルが、無関係な変化に直面した際に性能の著しい低下を示しました。Appleは、AIがより正確な意思決定と問題解決能力を得るためには、神経ネットワークと伝統的なシンボルベースの推論を組み合わせる「神経シンボリックAI」が必要であると提案しています。