Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде
Построили модерацию для открытой анонимной мультиязычной стены — дешёвый каскад (regex → классификатор → LLM-судья → fallback), ≈$0 на API. И кто-то попытался обойти его ROT13-джейлбрейком, LLM-судья раскусил закодированную инъекцию, которую keyword-фильтр бы пропустил. Разбор архитектуры,...
Не надо встраивать ИИ в каждую корпоративную систему, это архитектурная ошибка
Главная мысль этой статьи простая: не надо встраивать ИИ в каждую корпоративную систему как отдельный самостоятельный AI-контур. Пользователь должен видеть ИИ там, где работает: в CRM, СЭД, ITSM, мониторинге, портале или корпоративном чате. Но модели, GPU, gateway, лимиты, аудит, политики доступа,...
ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM
Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете. Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний...
RAG в enterprise: 70-80% проблем не в модели, а в данных
Эта статья родилась из работы над AlpinaGPT. Мы недавно зарелизили в нём по-настоящему крутых AI-ассистентов и AI-проекты: с подключаемыми базами знаний, общим контекстом чатов и нормальной памятью между сессиями. Я начал смотреть, как RAG сделан у других — и оказалось, что во многих продуктах на...
Безопасное внедрение ИИ в корпорации: 3 архитектурных подхода и опыт Alpina Digital
88% компаний используют ИИ, но только 1% достиг зрелости. Главный барьер — не технология, а безопасность данных. Что мы делали два года и почему пришли к гибридной архитектуре. Жемал Хамидун, Head of AI Alpina Digital, CPO AlpinaGPT, автор тг-канала «Готовим ИИшницу». Читать далее...
AI Governance по‑инженерному: что должен знать архитектор
Представьте: вы запускаете генеративную AI‑фичу в проде. Всё работает как часы. А через месяц получаете иск, потому что ваша модель насоветовала клиентам того, чего не существует в реальных политиках компании. В статье разберем ключевые тренды AI Governance в 2026 году, которые помогают не просто...
Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить?
Все мы привыкли, что нейросети — это про креатив, быстрый поиск и «накидай мне презу на завтра», но что происходит, когда вы выводите LLM из зоны комфорта написания стишков, саммари и поздравлений для бухгалтерии, в зону ответственности, такую как анализ сложных документов, комплаенс, медицина,...
Когда pull request выглядит нормальным, но ревью на нём всё равно зависает
В AI-first разработке в продукт прилетает всё больше pull request от людей с разной глубиной контекста. Формально такие PR могут выглядеть нормально, но ревью всё чаще упирается не в синтаксис, а в попытку понять, что именно этот набор изменений делает с системой. В статье - почему обычного ревью...
Почему ваша LLM-платформа — следующая цель: аудит безопасности AI-сервиса изнутри
Мы искали уязвимости в RAG-платформе с десятками тысяч пользователей — а нашли доступ ко всей инфраструктуре и API-ключам с бюджетом в сотни тысяч долларов. Две недели мы строили сложные цепочки: SSRF через LangChain, инъекции в промпты, HTTP smuggling, CVE в десериализации. Ни одна не дала...
[Перевод] Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать
RAG часто воспринимают как аккуратный способ «заземлить» LLM на документах и снизить риск галлюцинаций. Но у этой архитектуры есть менее очевидная проблема: контекст из базы знаний обычно считается доверенным, хотя именно через него в модель могут попасть вредоносные инструкции. В статье разбираем,...
Что сегодня действительно важно в AI: 10 направлений по версии MIT Technology Review
В последний год разговор об AI всё чаще сводится к сравнению моделей и их возможностей. Но если смотреть шире, становится видно, что главные изменения происходят не только на уровне качества ответов: меняются сами технологические тренды, сценарии внедрения и контуры конфликтов вокруг AI. Редакция...
AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает
AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает Один твит про «лечение столбняка для дяди» — и автономный агент Lobstar Wilde переводит незнакомцу 5% всего предложения криптопроекта. Это не сценарий киберпанк-триллера, а реальность...
Mythos и реальность
Недавно все мы услышали громкое заявление Anthropic «наша модель Mythos очень опасна из-за своих хакерских способностей». Когда (пока) к модели нет массового доступа, человечеству сложно проверить, как все обстоит на самом деле, а хайп разгонял ряд событий: • в США и Великобритании прошли...
Как измерить LLM для задач кибербеза: обзор открытых бенчмарков
Привет, Хабр! Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому...
Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств
Всем привет! В какой-то момент у меня появился простой вопрос: «А можно ли заставить ассистента произнести что-то, что он в норме говорить не должен?» Без API, без навыков программирования, без автоматизации и т.п. Оказалось - можно. Читать далее...
Как меняются метрики контроля при переходе от чат‑ботов к агентным системам
Когда LLM перестаёт быть просто чат-интерфейсом и начинает сама планировать шаги, вызывать инструменты и общаться с другими агентами, ломаются и привычные способы контроля. В статье — о том, почему для агентных систем уже недостаточно мерить качество ответа, какие новые метрики нужны для оценки их...
Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей
Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections). Но реальность оказалась...
Охота на AI-инфраструктуру, часть 2: что делают с чужим Ollama — от трейдинг-ботов до контент-ферм
В первой части я рассказал, как ханипот поймал сканер MCP-серверов — новый вектор разведки, нацеленный на AI-инфраструктуру. Сегодня — про другую сторону: что происходит, когда атакующий находит открытый Ollama. Статья документирует реальные сессии злоупотребления открытыми LLM-инстансами: кто...
Назад