claude » b.Z - Записки о гаджетах, людях и музыке

18 марта 2026 0 53

Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма

Работодатель спрятал в PDF с тестовым заданием скрытую инструкцию для ИИ. Claude Opus 4.6 не только отказался ее выполнять, но и предупредил кандидата о ловушке. Разбираемся, как устроена гонка вооружений между HR и соискателями в эпоху LLM. И главное, как проверять такие документы перед работой....

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность opus 4.6 claude prompt injection llm безопасность ai security anthropic найм сотрудников искусственный интеллект нейросети

16 февраля 2026 0 17

OpenClaw присоединился к OpenAI. И почему Claude от Anthropic тоже стоит волноваться

OpenAI забирает к себе создателя OpenClaw Питера Штайнбергера, а сам OpenClaw переводят в формат независимого фонда и обещают поддерживать как open-source. На первый взгляд, обычная кадровая новость. Но на самом деле это сигнал: гонка смещается от тех, у кого умнее модель к тем, у кого агент...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность claude skills openclaw openai anthropic нейросети искусственный интеллект вайбкодинг vibecoding ии агенты

17 декабря 2025 0 43

[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир

В 3:47 утра по тихоокеанскому времени 18 сентября 2025 года Джейкоб Кляйн наблюдал за тем, чего не должно было быть. На экране его ноутбука агент ИИ по имени Claude Code проводил кибератаку на химическое предприятие в Германии, генерируя тысячи попыток взлома в секунду - скорость, недостижимая для...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность ии нейросети anthropic claude безопасность

19 ноября 2025 0 124

«Нейросеть, мы тебя отключим»: интервью о взломе LLM и реальной цене ИИ-инструментов

Первая полностью автоматизированная ИИ-атака уже случилась. Claude сам нашёл уязвимые компании, написал под них малварь, разослал её и начал шантажировать жертв с требованием выкупа в биткоинах. Взломано было 17 компаний. И это только начало. Сергей Зыбнев— Team Lead пентестер и специалист по...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность пентест llm-модели claude безопасность хакерские атаки взлом llm преступность тестирование тестирование на проникновение prompt injection

1 октября 2025 0 82

Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом

Привет, Хабр! На связи Максим Митрофанов, ML-лид команды Application Security в Positive Technologies. Мы занимаемся прикладными вопросами машинного обучения по направлению безопасной разработки, регулярно изучаем новые технические репорты и доменные статьи, разбором одной из которых я и хотел бы...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность безопасная разработка искусственный интеллект gpt-4 уязвимый исходный код reasoning dataset claude llm large language model промптинг

4 сентября 2025 0 156

[Перевод] «Вайб хакинг»: как киберпреступники используют ИИ-агентов для масштабирования вымогательских атак

В августовском отчёте Threat Intelligence Report: August 2025 компания Anthropic раскрыла детали новой волны киберпреступности: злоумышленники всё активнее используют ИИ-агентов для автоматизации атак и масштабного вымогательства данных. Исследование показывает, что искусственный интеллект теперь...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность информационная безопасность кибербез ии искусственный интеллект vibe hacking ai anthropic claude

18 июня 2025 0 156

[Перевод] Насколько безопасен ваш ИИ? Анализ угроз Model Context Protocol (MCP)

Скорее всего, за последние месяцы вы уже сталкивались с аббревиатурой MCP (Model Context Protocol). Что это такое — просто очередной API или действительно что‑то стоящее внимания? В этом материале мы разберёмся, что такое MCP, почему благодаря нему LLM становятся мощнее, а также рассмотрим основные...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность mcp claude атака

19 мая 2025 0 93

Claude, есть пробитие: взламываем самую защищенную модель

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm исскуственный интеллект ии взлом claude claude 3.7 sonnet

25 апреля 2025 0 149

[Перевод] Что не так с MCP (Model Context Protocol)?

Анализ уязвимости и ограничения Model Context Protocol для подключения инструментов к ИИ-ассистентам. Узнаете, как оценить риски MCP-интеграций в своих проектах и минимизировать угрозы безопасности Читать далее...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект mcp безопасность llm протоколы интеграции claude chatgpt инъекции промптов инструменты

14 декабря 2024 0 139

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность anthropic claude chatgpt взлом обход защиты автоматизация jailbreak цензура информационная безопасность

8 декабря 2024 0 277

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность искусственный интеллект взломы обход защиты программа цензура chatgpt prompt engineering claude jailbreak информационная безопасность

4 декабря 2023 0 543

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack

Хакеры придумывают всё более изощренные способы атаки на искусственный интеллект. Один из наиболее интересных — это атака «плавающего окна внимания»: злоумышленники манипулируют контекстом диалога с ИИ, подталкивая его к опасным выводам и смещению фокуса. Чрезвычайно тонкий подход, позволяющий...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность llm nlp claude chatgpt

Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма

OpenClaw присоединился к OpenAI. И почему Claude от Anthropic тоже стоит волноваться

[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир

«Нейросеть, мы тебя отключим»: интервью о взломе LLM и реальной цене ИИ-инструментов

Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом

[Перевод] «Вайб хакинг»: как киберпреступники используют ИИ-агентов для масштабирования вымогательских атак

[Перевод] Насколько безопасен ваш ИИ? Анализ угроз Model Context Protocol (MCP)

Claude, есть пробитие: взламываем самую защищенную модель

[Перевод] Что не так с MCP (Model Context Protocol)?

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Способы атаки на ИИ (Claude &amp; ChatGPT): floating attention window attack

Способы атаки на ИИ (Claude & ChatGPT): floating attention window attack