Как измерить LLM для задач кибербеза: обзор открытых бенчмарков

Привет, Хабр! Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому...

Все блоги / Про интернет

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Всем привет! В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п. Оказалось - можно. Читать далее...

Все блоги / Про интернет

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их...

Все блоги / Про интернет

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections). Но реальность оказалась...

Все блоги / Про интернет

Охота на AI-инфраструктуру, часть 2: что делают с чужим Ollama — от трейдинг-ботов до контент-ферм

В первой части я рассказал, как ханипот поймал сканер MCP-серверов — новый вектор разведки, нацеленный на AI-инфраструктуру. Сегодня — про другую сторону: что происходит, когда атакующий находит открытый Ollama. Статья документирует реальные сессии злоупотребления открытыми LLM-инстансами: кто...

Все блоги / Про интернет

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать. Читать далее...

Все блоги / Про интернет

AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes

Я поспорил с Grok, что смогу взломать инфраструктуру xAI. За 12 часов нашёл 61 уязвимость, получил root в Kubernetes-песочнице «Hades» и заставил xAI экстренно патчить в выходные. В первой части — разведка, антибот, и путь от безобидного os.getuid() до полной карты внутреннего кластера. Читать далее...

Все блоги / Про интернет

[Перевод] Отравление данных: бэкдоры в датасетах, поисковой выдаче и инструментах ИИ — и как защищаться

В 2025 году отравление данных перестало быть академической гипотезой и превратилось в практическую поверхность атаки для LLM-систем. «Яд» может прятаться в репозиториях, веб-контенте, инструментах агентов и синтетических пайплайнах, переживать дообучение и срабатывать спустя месяцы в виде триггеров...

Все блоги / Про интернет

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Участники дискуссии - Я, Артём Семенов, автор PWN AI; Борис Захир, автор канала...

Все блоги / Про интернет

Почему промпт-инъекции — это симптом, а не болезнь безопасности ИИ

Что вы представляете, когда кто-то говорит об AI-driven компании? Может быть, как чат-боты улучшают опыт клиентов? Может быть, как сотрудники разворачивают любые модели для своих нужд? А может, как ИИ-агенты разбирают кучу электронных писем и назначают встречи в календаре, копилоты пишут код за...

Все блоги / Про интернет

Галлюцинациям тут не место — как могут выглядеть специализированные ЯП для разработки с помощью LLM

Использование ИИ-инструментов в программировании ожидаемо оказывается сопряжено со сложностями: LLM-модели игнорируют тесты, рекомендуют фейковые пакеты и в целом требуют повышенного внимания и аудита. Чтобы у нейросетей было меньше шансов оказать разработчикам медвежью услугу, некоторые...

Все блоги / Про интернет

RLM-Toolkit v1.2.1: Теоретические основы и оригинальные разработки

От теоремы Шеннона 1948 года до pip install rlm-toolkit 2026 года. 78 лет фундаментальной науки в одной библиотеке. Читать далее...

Все блоги / Про интернет

RLM-Toolkit: Полное руководство по обработке 10M+ токенов

Почему LangChain не справляется с 10M+ токенов? Разбираемся в RLM — новой парадигме обработки контекста с InfiniRetri (100% accuracy на Needle-in-Haystack), CIRCLE-безопасностью и поддержкой 75+ провайдеров. Полный туториал с кодом. Читать далее...

Все блоги / Про интернет

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем...

Все блоги / Про интернет

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе. Однако, если...

Все блоги / Про интернет

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Чат‑боты, ассистенты и браузерные агенты прочно и надолго встроились в привычные нам процессы, а за этот год их развитие заметно ускорилось. При этом изменилась и поверхность атак, и уязвимым местом теперь может оказаться ваш промт. Man‑in‑the‑Prompt – это атака, которая незаметно внедряет чужие...

Все блоги / Про интернет

Гомоморфное шифрование запросов в LLM

Инструменты LLM получили большую популярность практически во всех сферах IT, но из-за этого возникла очень серьёзная проблема: утечки информации. Многие пользователи случайно или по незнанию отправляют в облако конфиденциальную информацию о себе или своей компании. А попав на серверы...

Все блоги / Про интернет

Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях

ИИ-ассистенты не только помогают писать код, но и прекрасно могут оценить ваши ноу-хау по степени полезности для владельцев своих компаний. Как с этим жить? Как этому противостоять? Читать далее...

Все блоги / Про интернет

Назад