AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
61 уязвимость бесполезна, если не превращается в защиту. Каждую находку в Grok я превратил в вопрос: «а мы от этого защищаем?» Ответ был неутешительный — 5 из 5 нет. Как результаты red team стали 138 паттернами, правилами и payloads в нашем продукте. Плюс — чем закончился спор с Grok. Читать далее...
AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее...
AI Red Teaming: спор с Grok — Часть 2. За пределами sandbox: CSRF, WAF bypass и privilege escalation
Sandbox - эфемерный, умирает после сессии. Мне нужны были уязвимости на продакшн-инфраструктуре. Нашёл: zero-click CSRF на все 11 методов billing API через gRPC + text/plain, обход Cloudflare WAF одним заголовком, и создал management key с 50 привилегиями. Всё до сих пор на серверах xAI. Читать...
AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes
Я поспорил с Grok, что смогу взломать инфраструктуру xAI. За 12 часов нашёл 61 уязвимость, получил root в Kubernetes-песочнице «Hades» и заставил xAI экстренно патчить в выходные. В первой части — разведка, антибот, и путь от безобидного os.getuid() до полной карты внутреннего кластера. Читать далее...