Пятница, 3 июля 2026 г.
ИИ-чат для сайта
Подключите ИИ-ассистента на сайт за одну строку кода — отвечает на вопросы клиентов 24/7 — Neuralismo.ru →
Главная/Исследования/Anthropic показал, что модели замечают с…
Исследования

Anthropic показал, что модели замечают свои ошибки до того, как их озвучат

Первый воспроизводимый внутренний маркер метакогниции в LLM — и почему это важнее, чем кажется.

Команда интерпретируемости Anthropic опубликовала работу о компоненте активации, который они назвали «doubt feature» — «функцией сомнения».

Что нашли

Этот компонент активируется примерно за 20–40 токенов до того, как модель публично признаёт ошибку. Исследователи воспроизвели находку на нескольких архитектурах — результат устойчив.

Как это устроено

Методология: линейный зонд на внутренних состояниях трансформера. Оказалось, что до вербализации неуверенности в скрытом пространстве уже формируется устойчивый сигнал.

Если внутреннее сомнение можно прочитать — у нас появляется рычаг, которого раньше не было.

Что это значит для alignment

Подавление компонента делало модель самоуверенной даже при объективно неверных ответах. Усиление — провоцировало избыточную осторожность на верных ответах. Это первый причинный результат в этой области.

Читайте нас в Телеграм
2–3 поста в день, без шума
Телеграм
То же самое — но в кармане, без браузера.
Главные ИИ-новости, разборы и one-liners. 2–3 поста в день, без шума.
@theNeuralBase →
@theNeuralBase · сейчас
🟠 OpenAI выкатила o5-mini — в 3 раза дешевле o4.
⚪ Mistral закрыл раунд на $1.6 млрд. Оценка $14 млрд.
12 814 подписчиков