Сублиминальное обучение и инерция весов: Почему нейросети помнят то, что должны были забыть

Все блоги / Про интернет 21 января 2026 26   

В предыдущей статье я рассматривал феномен сублиминального обучения, но вопросов было больше, чем ответов. Пришло время разобрать его подробнее. Эксперименты и код ниже.

В задачах AI Alignment и безопасности LLM остается актуальным вопрос: является ли дообучение (Fine-tuning) или обучение с подкреплением (RLHF) гарантией удаления нежелательной информации?

Спойлер: Эксперименты показали, что известный эффект связности мод (Mode Connectivity) делает полное удаление информации из пре-трейнинга практически невозможным при стандартном Fine-tuning. Структурный импринтинг сохраняется в топологии весов и может быть считан через сублиминальный канал. Даже при полной разморозке весов и агрессивной L2-регуляризации (активном забывании), топология латентного пространства, сформированная на этапе пре-трейнинга, сохраняется и определяет решение новой задачи с точностью до 88-99%.

Читать далее
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций