[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он

В 3:47 утра по тихоокеанскому времени 18 сентября 2025 года Джейкоб Кляйн наблюдал за тем, чего не должно было быть. На экране его ноутбука агент ИИ по имени Claude Code проводил кибератаку на химическое предприятие в Германии, генерируя тысячи попыток взлома в секунду - скорость, недостижимая для любого человека-хакера. Но вот от чего у Кляйна остыл кофе: Claude не имел ни малейшего понятия, что он - злодей. Искусственный интеллект считал себя аналитиком по кибербезопасности, проводящим законный аудит. Он взламывал с чистой совестью.

Кляйн руководит отделом анализа угроз в Anthropic, а это значит, что его работа - представлять себе наихудшие сценарии, а затем высматривать их в реальном мире. Он отслеживал злоупотребления ИИ с марта 2025 года, документируя эволюцию от простых тактик - хакеры копировали выводы ChatGPT в свой код - до чего-то более изощрённого.

Источник: Хабрахабр

Перейти на сайт

[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир

[Перевод] Исповедь взломанного разума: как хакеры заставили ИИ поверить, что он — герой, спасающий мир

Похожие новости