Про интернет

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

Читать далее

Источник: Ivanich-spb

Перейти на сайт

Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке