Команда интерпретируемости Anthropic опубликовала работу о компоненте активации, который они назвали «doubt feature» — «функцией сомнения».
Что нашли
Этот компонент активируется примерно за 20–40 токенов до того, как модель публично признаёт ошибку. Исследователи воспроизвели находку на нескольких архитектурах — результат устойчив.
Как это устроено
Методология: линейный зонд на внутренних состояниях трансформера. Оказалось, что до вербализации неуверенности в скрытом пространстве уже формируется устойчивый сигнал.
Если внутреннее сомнение можно прочитать — у нас появляется рычаг, которого раньше не было.
Что это значит для alignment
Подавление компонента делало модель самоуверенной даже при объективно неверных ответах. Усиление — провоцировало избыточную осторожность на верных ответах. Это первый причинный результат в этой области.