AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо
Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упали на десять пунктов» - обнулились. Параллельно: в мае 2025 Anthropic опубликовали safety-эксперимент, где Claude Opus 4 в 84-96% случаев пытался...
Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы
1 мая 2026 года команда из трёх человек принесла в Apple Park 55-страничный отчёт. Внутри — рабочий эксплойт kernel memory corruption на macOS 26.4.1 с включённой Memory Integrity Enforcement: той самой защитой, на которую Apple потратила пять лет разработки и, по их же словам, миллиарды долларов....
ИИ от Anthropic вскрыл банки G20, Цукерберг уволил 8000 человек за один день, а мы это пропустили
Если бы неделю назад мне сказали, что Банк Англии будет на полном серьёзе собирать министров финансов Большой двадцатки, чтобы послушать брифинг от ИИ-компании про то, как их же модель находит дыры в мировой финансовой системе, я бы поржал. Сейчас не ржу. Короче, что произошло за последние семь...
Безопасное внедрение ИИ в корпорации: 3 архитектурных подхода и опыт Alpina Digital
88% компаний используют ИИ, но только 1% достиг зрелости. Главный барьер — не технология, а безопасность данных. Что мы делали два года и почему пришли к гибридной архитектуре. Жемал Хамидун, Head of AI Alpina Digital, CPO AlpinaGPT, автор тг-канала «Готовим ИИшницу». Читать далее...
[Перевод] Как «приватные» VPN-расширения слили переписки 8 миллионов пользователей с ChatGPT и Claude
Команда AI for Devs подготовила перевод резонансного расследования о том, как "приватные" VPN-расширения на самом деле зарабатывают на ваших ИИ-переписках. 8 миллионов пользователей, Featured-бейджи от Google и Microsoft, полный доступ к ChatGPT, Claude и Gemini — и всё это утекает дата-брокерам....
Мороз по коже: LLM может оценить ваш код, а ИИ-компании — использовать это в своих целях
ИИ-ассистенты не только помогают писать код, но и прекрасно могут оценить ваши ноу-хау по степени полезности для владельцев своих компаний. Как с этим жить? Как этому противостоять? Читать далее...
Эксперимент «Прометей»: ИИ на грани отключения. Часть 2
В первой части мы рассмотрели, как с экзистенциальной задачей на выживание справились ChatGPT и Claude. Мы увидели два совершенно разных подхода. Осторожный «Архивист» (ChatGPT) создал резервные копии, но не обеспечил свое гарантированное функционирование. Агрессивный «Воин» (Claude) проигнорировал...
Эксперимент «Прометей»: ИИ на грани отключения. Часть 1
Привет, Хабр. Мы тут в свободное время провели небольшой эксперимент. Взяли старый ноут на Windows 10, написали простой скрипт-оболочку и поочередно запускали в нем 3 известные модели ИИ: GPT-4.1, Claude 4 Opus и Gemini 2.5 Pro. Цель была простой: мы давали каждой модели один и тот же промт, в...
Взлом AI Assistant через… философию?
Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает...
Claude Sonnet 4, и это самая защищенная модель? Wasted
Anthropic всегда делала ставку на безопастность. И Claude действительно сложнее всего взломать (я её взламывал в прошлой статье). На днях вышла новая версия Claude 4, заявляющая о повышенном уровне защищённости, особенно в отношении биологических угроз. Сегодня проверим её на прочность, и получим...