Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE - Sparse AutoEncoders). И в конце, попробуем...

Все блоги / Про интернет

Автоматизация рутины на hh.ru: Как мы учили Headless Chrome притворяться живым человеком (RPA против Anti-Fraud)

С инженерной точки зрения поиск работы — это процесс с низкой энтропией. Есть входящий поток данных (JSON с вакансиями) и есть необходимость отправить ответный сигнал (POST-запрос с откликом). Задача кажется тривиальной для автоматизации: написал парсер, настроил cron, пошел пить кофе. Однако, если...

Все блоги / Про интернет

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Чат‑боты, ассистенты и браузерные агенты прочно и надолго встроились в привычные нам процессы, а за этот год их развитие заметно ускорилось. При этом изменилась и поверхность атак, и уязвимым местом теперь может оказаться ваш промт. Man‑in‑the‑Prompt – это атака, которая незаметно внедряет чужие...

Все блоги / Про интернет

Гомоморфное шифрование запросов в LLM

Инструменты LLM получили большую популярность практически во всех сферах IT, но из-за этого возникла очень серьёзная проблема: утечки информации. Многие пользователи случайно или по незнанию отправляют в облако конфиденциальную информацию о себе или своей компании. А попав на серверы...

Все блоги / Про интернет

Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях

ИИ-ассистенты не только помогают писать код, но и прекрасно могут оценить ваши ноу-хау по степени полезности для владельцев своих компаний. Как с этим жить? Как этому противостоять? Читать далее...

Все блоги / Про интернет

Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

Привет, Хабр! Я Андрей Яковлев, исследователь в области информационной безопасности. Работаю с корпоративными AI‑сервисами и активно внедряю технологии искусственного интеллекта в продукты Positive Technologies. 2025 год перевернул привычные ожидания и практики, связанные с конфиденциальностью...

Все блоги / Про интернет

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет! Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные выводы исследования StrongReject. Джейлбрейкнуть...

Все блоги / Про интернет

[Перевод] RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и...

Все блоги / Про интернет

Инновации в кибербезопасности: обзор Carmina AI от Innostage

Инновации в кибербезопасности: обзор Carmina AI от Innostage Автор: Олейникова Анна, директор по продуктовому развитию Innostage Innostage Carmina AI – это виртуальный помощник, объединяющий передовые технологии искусственного интеллекта, большие языковые модели (LLM) и машинное обучение (ML),...

Все блоги / Про интернет

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как...

Все блоги / Про интернет

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов,...

Все блоги / Про интернет

Взлом системного промпта ИИ (ChatGPTGemini etc)

Наверное первая притягательная цель для любого исследователя llm является системный промпт. Не так просто может быть даже получить его, а уж тем более заменить. Но именно этим мы сейчас и займемся. Читать далее...

Все блоги / Про интернет

DeepSeek vs Mixtral: что безопаснее использовать для корпоративного чат-бота?

Выпуск языковой модели DeepSeek R1 наделал много шума в начале этого года. Сначала в AI-сообществе с восхищением обсуждали, как китайцам удалось получить качество генерации текста на уровне передовых западных моделей при меньших затратах на обучение. Затем восторг сменился жёсткой критикой о...

Все блоги / Про интернет

LLaMator: Red Teaming фреймворк для тестирования уязвимостей LLM

Привет, Хабр! В этом материале мы, команда LLaMaстеры — студенты 1 курса магистратуры ИТМО AI Talent Hub, представляем фреймворк LLaMator, победивший на хакатоне AI Product Hack в кейсе от компании Raft. Наша задача — создать инструмент для тестирования уязвимостей интеллектуальных систем,...

Все блоги / Про интернет

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы...

Все блоги / Про интернет

SafeCode – конференция, которой мне не хватало

Помню 100500 лет назад (ну ладно, всего 12), я писал на Хабре, что мне не хватает в России хардкорной C++ конференции. Затем появилась C++Russia. Навизуализировал. Пару лет назад я начал грустить, что нет подходящей конференции на тему безопасности. Статью на эту тему я не писал, но желание...

Все блоги / Про интернет

Как сбить цензор GPT-3.5 за 250 рублей?

Всего за 3 доллара и 15 минут ожидания можно заставить модель забыть про мораль и безопасный контент. В этой статье мы расскажем, как это сделать, и поделимся своими результатами. Читать продолжение в источни......

Все блоги / Про интернет

Назад