Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»
Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ. Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с...
Anthropic и гонка к «безопасному ИИ»: что рассказал CEO компании Дарио Амодеи на подкасте Lex Fridman
Недавно Лекс Фридман пригласил Дарио Амодеи, основателя и CEO компании Anthropic, на подкаст, где они почти пять часов обсуждали, к чему идёт развитие ИИ и как создать мощные, но безопасные модели. Если у вас, как и у меня, нет пяти часов на просмотр, — я подготовил это саммари, чтобы решить, стоит...