AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

Python-решения для AI-безопасности добавляют 50-200мс задержки и сотни зависимостей. SENTINEL Shield — слой на чистом C: 0 зависимостей,...

Все блоги / Про интернет

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Чат‑боты, ассистенты и браузерные агенты прочно и надолго встроились в привычные нам процессы, а за этот год их развитие заметно ускорилось. При этом изменилась и поверхность атак, и уязвимым местом теперь может оказаться ваш промт. Man‑in‑the‑Prompt – это атака, которая незаметно внедряет чужие...

Все блоги / Про интернет

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для...

Все блоги / Про интернет

«Нейросеть, мы тебя отключим»: интервью о взломе LLM и реальной цене ИИ-инструментов

Первая полностью автоматизированная ИИ-атака уже случилась. Claude сам нашёл уязвимые компании, написал под них малварь, разослал её и начал шантажировать жертв с требованием выкупа в биткоинах. Взломано было 17 компаний. И это только начало. Сергей Зыбнев— Team Lead пентестер и специалист по...

Все блоги / Про интернет

Обратная сторона ИИ: подводные камни передачи процессов нейросетям

Искусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато. Сегодня я пытаюсь понять реальные...

Все блоги / Про интернет

[Перевод] Prompt injection engineering для атакующих: эксплойт для Copilot от GitHub

Публичной информации о том, как писать мощные, незаметные и надёжные эксплойты промпт-инъекции, немного. Мы спроектируем и реализуем эксплойт промпт-инъекции, нацеленный на Copilot Agent от GitHub, уделяя внимание надёжности и минимизации вероятности обнаружения. Читать далее...

Все блоги / Про интернет

Яндекс.Полуразврат или при чём тут Crypt?

Яндекс выпустил новую модель для Шедеврума, которая попыталась прикрыть уязвимости, которые эксплуатировались для создания «небезопасного контента» категории 18+. Тем не менее, не всё так радужно и с «детским» режимом они очень торопятся. Некоторые уязвимости в промпте остались, а некоторые...

Все блоги / Про интернет

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в...

Все блоги / Про интернет

Можно ли решить проблему prompt injection?

Недавно я участвовал в вебинаре, посвящённом атаке prompt injection («инъецирование промта»). Вебинар организовала LangChain, в нём участвовали Виллем Пиенаар, Кодзин Осиба (Robust Intelligence), Джонатан Коэн и Кристофер Парисьен (Nvidia Research), а проводил его Харрисон Чейз. Полную часовую...

Все блоги / Про интернет

Применяем «колдовство» prompt injection против Гендальфа

На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме. Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью...

Все блоги / Про интернет