«Иллюзия мышления: ограничения больших моделей рассуждения»
Искусственный интеллект

«Иллюзия мышления: ограничения больших моделей рассуждения»

Недавний отчёт Apple «The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity» анализирует Large Reasoning Models (LRM) — версии LLM, генерирующие развёрнутые цепочки рассуждений. Используя контролируемые паззловые среды (Ханойская башня, Checker Jumping, River Crossing, Blocks World), авторы варьировали композиционную сложность задач и отслеживали как итоговую точность, так и «ход мыслей» моделей с помощью детерминированных симуляторов.

Ключевой результат — «полный обвал точности» за критическим порогом сложности: при росте N любая из проверенных систем (o3-mini, DeepSeek-R1, Claude 3.7 Sonnet-Thinking, Gemini Thinking) переходит из частично успешного режима в совершенную неспособность найти верное решение. При этом выявлены три режима работы: (1) низкая сложность — стандартные LLM превосходят LRM; (2) средняя — дополнительные «мысли» дают преимущество; (3) высокая — крах всех моделей.

Особенно примечателен «парадокс вычислительных усилий». До порога LRM наращивают количество thinking tokens, однако именно рядом с точкой обвала объём рассуждений неожиданно сокращается, хотя контекстный бюджет далёк от исчерпания. Это указывает на фундаментальное ограничение масштабируемости текущих RL-индуцированных стратегий саморефлексии.

Глубокий анализ трасс рассуждений показал: на простых задачах модели находят правильный путь рано, но продолжают «переобдумывать», растрачивая вычисления; на средних — верные решения появляются позже; на сложных — корректные шаги исчезают полностью, демонстрируя ограниченную способность к самокоррекции и валидации.

Попытка предоставить алгоритм Ханоя не улучшила результат, что подчёркивает слабость в исполнении даже явных инструкций и намекает на дефицит символической манипуляции. Итоговые выводы ставят под сомнение линейное «увеличение параметров» как путь к AGI и требуют новых исследовательских направлений: интеграции проверяемых алгоритмов, гибридных нейро-символических архитектур, а также оценки реальных рисков «галлюцинаций аргументации» при применении LRM в критических областях. Прагматически авторам видится переход к модульным системам, где генеративная модель отвечает лишь за эвристический поиск, а верификация и планирование выполняются явными алгоритмами. В противном случае экспоненциальный разрыв между вычислительной эволюцией задач и «коллапсирующей» логикой LRMs сохранится, что будет серьёзным барьером для продуктовых внедрений AGI-гипотез.

admin
Author: admin

Добавить комментарий