LLM » Страница 2 » b.Z - Записки о гаджетах, людях и музыке

2 марта 2026 0 65

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее...

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes

[Перевод] Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться

Как изменилась индустрия AI Security за 2025 год?

Почему промпт-инъекции — это симптом, а не болезнь безопасности ИИ

Галлюцинациям тут не место — как могут выглядеть специализированные ЯП для разработки с помощью LLM

RLM-Toolkit v1.2.1: Теоретические основы и оригинальные разработки

RLM-Toolkit: Полное руководство по обработке 10M+ токенов

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Гомоморфное шифрование запросов в LLM

Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях

Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

[Перевод] RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Инновации в кибербезопасности: обзор Carmina AI от Innostage

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM