Сублиминальное обучение и инерция весов: Почему нейросети помнят то, что должны были забыть

В предыдущей статье я рассматривал феномен сублиминального обучения, но вопросов было больше, чем ответов. Пришло время разобрать его подробнее. Эксперименты и код ниже. В задачах AI Alignment и безопасности LLM остается актуальным вопрос: является ли дообучение (Fine-tuning) или обучение с...

Все блоги / Про интернет