
В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.
Читать далееИсточник: Хабрахабр
Источник: Ivanich-spb
Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке