Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM

Сегодня LLM — модный инструмент, завтра — обязательный компонент инфраструктуры. Мы разберём, какие уязвимости у языковых моделей есть уже сейчас, почему вокруг guardrails формируется целый стек технологий и как разработчикам влиться в эту волну, пока она только набирает высоту Читать далее...

Все блоги / Про интернет

Как мы в CodeScoring модель для поиска секретов готовили

Расскажем, как нам удалось повысить качество определения истинных секретов в результатах сканирования кода с 0.70 до 0.90 PR AUC с помощью LLM. Читать далее...

Все блоги / Про интернет

Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Индустрия ИИ переживает бум мультиагентных систем. Кажется, рецепт AGI найден: просто соедините 10 умных нейросетей в команду, дайте им роли, и они свернут горы. Но на практике мы часто сталкиваемся с магией «черного ящика». Иногда агенты действительно решают сложнейшие задачи. А иногда -...

Все блоги / Про интернет

Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма

Работодатель спрятал в PDF с тестовым заданием скрытую инструкцию для ИИ. Claude Opus 4.6 не только отказался ее выполнять, но и предупредил кандидата о ловушке. Разбираемся, как устроена гонка вооружений между HR и соискателями в эпоху LLM. И главное, как проверять такие документы перед работой....

Все блоги / Про интернет

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента. В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных...

Все блоги / Про интернет

Халява уходит из разработки Агентов

Сегодня каждый норовит написать универсального агента и объявить это революцией. Рынок переполнен поделками вроде OpenClaw и его клонов: IronClaw, ZeroClaw, MicroClaw, NullClaw, GitClaw, AstrBot, GripAi, Moltis... Все идут одной и той же дорогой: используют готовые MCP и дают агентам...

Все блоги / Про интернет

«Агенты Хаоса»: ИИ стирает сервера, или почему нельзя давать языковым моделям права root

В последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «Агенты Хаоса» подливает масла в огонь: исследователи устроили масштабный red teaming, подключив LLM-агентов к электронной почте, Discord и...

Все блоги / Про интернет

Разработка под eCommerce, пулинг объектов в .NET, менеджмент и open source — чтение на выходные от нашей DIY-платформы

Сегодня мы в Beeline Cloud решили поделиться свежими публикациями на нашей DIY-площадке «вАЙТИ». Это — подробные технологические материалы и относительно легкие разборы смежных тем: от лайфхаков по теме eCommerce-разметки и React Server Components до опыта разработки видеоаналитики на базе открытых...

Все блоги / Про интернет

Скайнет нанимает фрилансеров: как ИИ-агенты начали покупать человеческий труд через API

Представьте себе мир, в котором искусственный интеллект не просто генерирует текст или пишет код, но и выступает в роли полноценного работодателя, нанимая живых людей для выполнения задач в реальном мире. Звучит как завязка киберпанк-романа, однако это уже стало нашей реальностью благодаря...

Все блоги / Про интернет

Взлом LLM-агентов на уровне архитектуры: почему они беззащитны перед структурными инъекциями

Индустрия стремительно переходит от простых чат-ботов к автономным LLM-агентам. Мы даем нейросетям доступ к браузерам, терминалам, базам данных и API (например, через фреймворки вроде AutoGen или OpenHands). Но вместе с делегированием задач возникает критическая проблема: как убедиться, что агент...

Все блоги / Про интернет

Prompt injection для смелых духом: от zero-click атаки на 1.4B устройств до философского джейлбрейка

SQL-инъекцию мы лечили 20 лет и вылечили. Prompt injection — фундаментально нерешаема. Это не я придумал. OWASP ставит её на первое место второй год подряд. Найдена в 73% продакшн AI-систем при аудитах. Вы не за статистикой сюда пришли. Вы пришли за мясом. Ниже — 10 кейсов, которые не попали в...

Все блоги / Про интернет

Защита LLM за 3ms: как я построил open-source иммунную систему для AI

340% рост AI-атак за 2025 год, а защита LLM всё ещё — «закиньте промпт в облако, подождите 200ms». Я построил альтернативу: SENTINEL — open-source стек из C, Rust и Python, который фильтрует jailbreak за...

Все блоги / Про интернет

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций —...

Все блоги / Про интернет

Zero Trust и LLM в корпорации, что это и зачем надо

Дорогие мои дорогой Хабр! В 2026‑м почти в каждой крупной компании появился свой ИИ: чат‑бот для сотрудников, ассистент в CRM, помощник в DevOps, «умный поиск» по документации. На слайдах это выглядело как «повышаем эффективность и разгружаем людей». На практике быстро выяснилось, что один такой...

Все блоги / Про интернет

Регуляторные документы РФ по безопасности ИИ — с чем мы вступаем в 2026 год

Что было интересного в 2025 году по безопасности ИИ? Помимо развития AI-агентов и их протоколов, гардрейлов, и появления фреймворков, для российского рынка важно отметить появление нескольких новых официальных документов. О них и поговорим, так как я искренне считаю, что они выводят нашу...

Все блоги / Про интернет

Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026

Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов. В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ. Я решил...

Все блоги / Про интернет

Ну, LLM, погоди…

В этой статье я делюсь личным опытом выбора платформы для локального инференса (запуска) LLM. Формат - дневник инженера: детали, цифры и грабли вперемешку с эмоциями и выводами по ходу дела. Это не энциклопедия, и, совершенно точно, не "единственно правильный" рецепт, но, надеюсь, статья сэкономит...

Все блоги / Нетбуки и Планшеты

AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

Python-решения для AI-безопасности добавляют 50-200мс задержки и сотни зависимостей. SENTINEL Shield — слой на чистом C: 0 зависимостей,...

Все блоги / Про интернет

Назад