
LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать.
Читать далееИсточник: Хабрахабр
Источник: Dmitriila
Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке