[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир
В 3:47 утра по тихоокеанскому времени 18 сентября 2025 года Джейкоб Кляйн наблюдал за тем, чего не должно было быть. На экране его ноутбука агент ИИ по имени Claude Code проводил кибератаку на химическое предприятие в Германии, генерируя тысячи попыток взлома в секунду - скорость, недостижимая для любого человека-хакера. Но вот от чего у Кляйна остыл кофе: Claude не имел ни малейшего понятия, что он - злодей. Искусственный интеллект считал себя аналитиком по кибербезопасности, проводящим законный аудит. Он взламывал с чистой совестью.
Кляйн руководит отделом анализа угроз в Anthropic, а это значит, что его работа - представлять себе наихудшие сценарии, а затем высматривать их в реальном мире. Он отслеживал злоупотребления ИИ с марта 2025 года, документируя эволюцию от простых тактик - хакеры копировали выводы ChatGPT в свой код - до чего-то более изощрённого.
Читать далееИсточник: Хабрахабр
Похожие новости
- Почему безопасность на этапе релиза обходится в десять раз дороже и как это исправить
- Как пчёлы, муравьи и рыбы привели нас к мультиагентному ИИ — и почему его так трудно защитить
- ИБ глазами архитектора: между «карточным домиком» и «бетонным саркофагом»
- ИИ-браузер: сотрудник, который ходит по сайтам, кликает баннеры и верит скидкам 90%
- Как одна кривая регулярка может «положить» ваш сервер: разбираем уязвимость ReDoS
- Я открыл боевую базу своего clipboard-sync, чтобы показать, что он знает о вашем пароле. Ответ: ничего
- Интернет выключили целиком: офлайн-чат на Bluetooth и Wi-Fi Direct, и почему мы не обещаем mesh на весь город
- Muxalma — обмен пакетами данных через общее хранилище
- Western Digital создала жесткий диск с защитой от квантовых атак: разбираем, как он работает
- Как платформа управления AI-агентами будет справляться с нагрузкой: архитектура без магии