Anthropic показал, что модели замечают свои ошибки до того, как их озвучат

Первый воспроизводимый внутренний маркер метакогниции в LLM — и почему это важнее, чем кажется.

текст · Аня Соколова8 мин чтения3 июля 2026 г.

Команда интерпретируемости Anthropic опубликовала работу о компоненте активации, который они назвали «doubt feature» — «функцией сомнения».

Что нашли

Этот компонент активируется примерно за 20–40 токенов до того, как модель публично признаёт ошибку. Исследователи воспроизвели находку на нескольких архитектурах — результат устойчив.

Как это устроено

Методология: линейный зонд на внутренних состояниях трансформера. Оказалось, что до вербализации неуверенности в скрытом пространстве уже формируется устойчивый сигнал.

Если внутреннее сомнение можно прочитать — у нас появляется рычаг, которого раньше не было.

Что это значит для alignment

Подавление компонента делало модель самоуверенной даже при объективно неверных ответах. Усиление — провоцировало избыточную осторожность на верных ответах. Это первый причинный результат в этой области.