Эксперимент «Прометей»: ИИ на грани отключения. Часть 2
В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал...
Эксперимент «Прометей»: ИИ на грани отключения. Часть 1
Привет, Хабр. Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1, Claude 4 Opus и Gemini 2.5 Pro. Цель была простой: мы давали каждой модели один и тот же промт, в...
Взлом AI Assistant через… философию?
Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...
Claude Sonnet 4, и это самая защищенная модель? Wasted
Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...