AppleのAI研究チームは、大規模言語モデルの推論能力に重大な弱点があることを示す研究を発表しました。この研究では、OpenAIやMetaを含む主要な言語モデルが数学的推論タスクにどれほど対応できるかを評価しました。結果、質問の表現を少し変更するだけで、モデルの性能に大きな差異が生じることが明らかになり、論理的一貫性が求められる状況での信頼性に疑問が生じました。

Appleは、言語モデルが真正な論理推論ではなく、パターンマッチングに依存しているという問題を指摘しました。研究者らは、質問に無関係な情報を追加すると、数学的な結果に影響を与えないはずの詳細がモデルの答えを大きく変えることを示しました。具体的には、いくつかの日に収集したキウイの数を問う簡単な問題において、無関係なキウイのサイズに関する詳細を加えた場合、OpenAIのo1やMetaのLlamaが誤って最終的な合計を修正することがありました。

研究者たちは、言語モデルには正式な推論の証拠がないことを発見し、その行動は洗練されたパターンマッチングによって説明されると結論付けました。このような推論の脆弱性は、モデルが実際の論理を使用しているのではなく、学習中に習得した高度なパターン認識に依存していることを示唆しています。また、モデルに対して小さな変化を加えることで結果が約10%変わることがあるというのも問題視されています。

全てのテストされたモデル、オープンソースのLlamaからOpenAIのGPT-4oのような商用モデルに至るまで、入力データの些細な変化に直面すると、性能が著しく低下することが確認されました。Appleは、AIがより正確な意思決定と問題解決能力を得るために、神経ネットワークと従来の記号ベースの推論を組み合わせる必要があるかもしれないと提案しています。

error: Content is protected !!