AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее...

Все блоги / Про интернет

AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes

Я поспорил с Grok, что смогу взломать инфраструктуру xAI. За 12 часов нашёл 61 уязвимость, получил root в Kubernetes-песочнице «Hades» и заставил xAI экстренно патчить в выходные. В первой части — разведка, антибот, и путь от безобидного os.getuid() до полной карты внутреннего кластера. Читать далее...

Все блоги / Про интернет

[Перевод] Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров...

Все блоги / Про интернет

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов, автор PWN AI; Борис Захир, автор канала...

Все блоги / Про интернет

Почему промпт-инъекции — это симптом, а не болезнь безопасности ИИ

Что вы представляете, когда кто-то говорит об AI-driven компании? Может быть, как чат-боты улучшают опыт клиентов? Может быть, как сотрудники разворачивают любые модели для своих нужд? А может, как ИИ-агенты разбирают кучу электронных писем и назначают встречи в календаре, копилоты пишут код за...

Все блоги / Про интернет

Галлюцинациям тут не место — как могут выглядеть специализированные ЯП для разработки с помощью LLM

Использование ИИ-инструментов в программировании ожидаемо оказывается сопряжено со сложностями: LLM-модели игнорируют тесты, рекомендуют фейковые пакеты и в целом требуют повышенного внимания и аудита. Чтобы у нейросетей было меньше шансов оказать разработчикам медвежью услугу, некоторые...

Все блоги / Про интернет

RLM-Toolkit v1.2.1: Теоретические основы и оригинальные разработки

От теоремы Шеннона 1948 года до pip install rlm-toolkit 2026 года. 78 лет фундаментальной науки в одной библиотеке. Читать далее...

Все блоги / Про интернет

RLM-Toolkit: Полное руководство по обработке 10M+ токенов

Почему LangChain не справляется с 10M+ токенов? Разбираемся в RLM — новой парадигме обработки контекста с InfiniRetri (100% accuracy на Needle-in-Haystack), CIRCLE-безопасностью и поддержкой 75+ провайдеров. Полный туториал с кодом. Читать далее...

Все блоги / Про интернет

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем...

Все блоги / Про интернет

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе. Однако, если...

Все блоги / Про интернет

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Чат‑боты, ассистенты и браузерные агенты прочно и надолго встроились в привычные нам процессы, а за этот год их развитие заметно ускорилось. При этом изменилась и поверхность атак, и уязвимым местом теперь может оказаться ваш промт. Man‑in‑the‑Prompt – это атака, которая незаметно внедряет чужие...

Все блоги / Про интернет

Гомоморфное шифрование запросов в LLM

Инструменты LLM получили большую популярность практически во всех сферах IT, но из-за этого возникла очень серьёзная проблема: утечки информации. Многие пользователи случайно или по незнанию отправляют в облако конфиденциальную информацию о себе или своей компании. А попав на серверы...

Все блоги / Про интернет

Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях

ИИ-ассистенты не только помогают писать код, но и прекрасно могут оценить ваши ноу-хау по степени полезности для владельцев своих компаний. Как с этим жить? Как этому противостоять? Читать далее...

Все блоги / Про интернет

Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

Привет, Хабр! Я Андрей Яковлев, исследователь в области информационной безопасности. Работаю с корпоративными AI‑сервисами и активно внедряю технологии искусственного интеллекта в продукты Positive Technologies. 2025 год перевернул привычные ожидания и практики, связанные с конфиденциальностью...

Все блоги / Про интернет

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть...

Все блоги / Про интернет

[Перевод] RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и...

Все блоги / Про интернет

Инновации в кибербезопасности: обзор Carmina AI от Innostage

Инновации в кибербезопасности: обзор Carmina AI от Innostage Автор: Олейникова Анна, директор по продуктовому развитию Innostage Innostage Carmina AI – это виртуальный помощник, объединяющий передовые технологии искусственного интеллекта, большие языковые модели (LLM) и машинное обучение (ML),...

Все блоги / Про интернет

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как...

Все блоги / Про интернет