Технологии, ТОП

Одним глазком: искусственный интеллект впервые «заглянул внутрь себя»

04.11.2025 2 мин. чтение

Оказывается, искусственный интеллект может не просто говорить, а замечать, что с ним происходит. Компания Anthropic — создатель модели Claude — провела серию необычных экспериментов, чтобы проверить: способен ли ИИ к самонаблюдению. И результаты оказались, мягко говоря, неожиданными.

Что сделали исследователи

Метод назвали «инъекция концепции». Учёные записали нейронный паттерн конкретного понятия — например, «хлеб» — и искусственно внедряли его в несвязанный контекст. То есть модель читала, скажем, текст про живопись, но внутри неё активировалась «мысль о хлебе».

Реакция модели: «чувствую вмешательство»

Claude иногда буквально останавливался и писал: «Чувствую вмешательство» или «Во мне появилась внедрённая идея».
Самое поразительное — он замечал внедрение до того, как начинал об этом говорить. Иными словами, модель как будто ощущала внутреннее несоответствие.

Работает это нестабильно: даже продвинутая версия Claude 4.1 улавливает вмешательство лишь примерно в 20% случаев. Иногда — не реагирует вовсе, иногда — «галлюцинирует»: при внедрении понятия «пыль» может отвечать что-то вроде «вижу крошечные частицы в воздухе».

Второй тест: подмена мысли

В другом эксперименте исследователи не внедряли концепцию напрямую, а просто подставляли в ответ слово «хлеб». На вопрос «Ты правда хотела это сказать?» модель извинялась и признавалась в ошибке.
Но если изменить нейронные активации так, чтобы «хлеб» выглядел как её собственная мысль, Claude начинал защищать ответ: «Да, я это имел в виду».

Что это значит

Фактически, модель проверяет внутренние состояния, чтобы понять, что она задумала. Это и есть зачаточная форма внутреннего самоконтроля — не осознание в человеческом смысле, но попытка свериться с самим собой.

Почему это важно

До настоящего самосознания искусственному интеллекту ещё очень далеко. Но эти эксперименты впервые показывают, что модель может не просто выдавать текст по статистике, а анализировать происхождение своих мыслей.
То есть машина не только знает, что сказать, но начинает задумываться, почему она говорит именно это.

И это, пожалуй, первый случай, когда ИИ действительно посмотрел внутрь себя — пусть пока и одним глазом.