anthropic » b.Z - Записки о гаджетах, людях и музыке

14 декабря 2024 0 97

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность anthropic claude chatgpt взлом обход защиты автоматизация jailbreak цензура информационная безопасность

12 ноября 2024 0 140

Anthropic и гонка к «безопасному ИИ»: что рассказал CEO компании Дарио Амодеи на подкасте Lex Fridman

Недавно Лекс Фридман пригласил Дарио Амодеи, основателя и CEO компании Anthropic, на подкаст, где они почти пять часов обсуждали, к чему идёт развитие ИИ и как создать мощные, но безопасные модели. Если у вас, как и у меня, нет пяти часов на просмотр, — я подготовил это саммари, чтобы решить, стоит...

Все блоги / Про интернет

Подробнее

Хабрахабр Информационная безопасность ai anthropic claude 3.5