Эксперимент «Прометей»: ИИ на грани отключения. Часть 2

В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал...

Все блоги / Про интернет

Эксперимент «Прометей»: ИИ на грани отключения. Часть 1

Привет, Хабр. Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1, Claude 4 Opus и Gemini 2.5 Pro. Цель была простой: мы давали каждой модели один и тот же промт, в...

Все блоги / Про интернет

Взлом AI Assistant через… философию?

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...

Все блоги / Про интернет

Claude Sonnet 4, и это самая защищенная модель? Wasted

Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...

Все блоги / Про интернет