Про интернет

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать.

Читать далее

Источник: Dmitriila

Перейти на сайт

Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке