[Перевод] DeepSeek AI: От инъекции промпта до захвата аккаунта
Около двух недель назад китайская лаборатория DeepSeek представила свою новую AI модель DeepSeek-R1-Lite, которая специализируется на логических рассуждениях. Конечно, у всего AI-сообщества быстро загорелся огонь в глазах от заявленных возможностей модели. И я один из них. Как обычно: раз новая...
Anthropic и гонка к «безопасному ИИ»: что рассказал CEO компании Дарио Амодеи на подкасте Lex Fridman
Недавно Лекс Фридман пригласил Дарио Амодеи, основателя и CEO компании Anthropic, на подкаст, где они почти пять часов обсуждали, к чему идёт развитие ИИ и как создать мощные, но безопасные модели. Если у вас, как и у меня, нет пяти часов на просмотр, — я подготовил это саммари, чтобы решить, стоит...
[Перевод] Анатомия LLM RCE
По мере того, как большие языковые модели (LLM) становятся все более сложными, и разработчики наделяют их новыми возможностями, резко увеличиваются случаи возникновения угрозы безопасности. Манипулируемые LLM представляют собой не только риск нарушения этических стандартов, но и реальную угрозу...
Что на неделе: самокат со встроенным столом, генератор кода от OpenAI и аналог YouTube от Telegram
Очередной дайджест новостей из мира технологий — интересных, забавных и субъективно важных. Продолжаются разговоры о блокировке Discord, снова и снова обсуждают плюсы (но в основном минусы) новых гаджетов от Apple, в СМИ и телеграм-каналах сохраняются волнения вокруг сервисов Google. Но пока,...
Создание своих тестов для Garak
В прошлой статье (https://habr.com/ru/companies/oleg-bunin/articles/843644/) я уже говорил о тёмной стороне больших языковых моделей и способах борьбы с проблемами. Но новые уязвимости вскрываются ежедневно, и даже самые крутые инструменты с постоянными обновлениями не всегда за ними успевают....
Как защитить своего бота на базе LLM (ChatGPT) от взлома?
Как гарантировано защитить своего бота на ChatGPT от взлома его системной роли? В статье предлагается один из подходов, который может защитить бота на базе любой LLM. В итоге бот ни при каких обстоятельствах не должен раскрыть пользователю свою системную роль и не говорить на темы, которые мы...
О чем еще говорят питонисты? Python-праздник на Positive Hack Days Fest 2. Часть 2
В прошлой статье, посвященной Python Day, который пройдет 26 мая в рамках киберфестиваля Positive Hack Days 2, мы рассказали о 4 из 8 запланированных докладов конференции. Продолжаем свой рассказ, дополняя его комментариями участников программного комитета мероприятия. Читать далее...
Attaque a-la russe: атака с помощью промт-инъекций русскоязычных моделей семейства Saiga2
Насколько хорошо защищены открытые большие языковые модели от генерации вредоносного контента? Рассмотрим механизмы атаки с промт-инъекцией на большие языковые модели, а так же рекомендации по защите от них. Читать далее...
Как взламывают биометрию и заставляют нейросети придумывать способы атак: топ-6 докладов с PHDays о ML и AI
Машинное обучение — особенно генеративные нейронные сети, такие как ChatGPT, — меняет мир нечеловеческими темпами. Разработчиков на некоторых дистанционных собеседованиях просят направить веб-камеру на рабочее место и клавиатуру, чтобы понимать, самостоятельно ли соискатель выполняет задания....
Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling
Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы. Узнать больше...
Тренды облачных технологий в мире и России. Меню на 2024 год
В декабре мы активно поглощали мандарины и ежегодные прогнозы по облакам. В какой-то момент и того, и другого оказалось слишком много. На сегодня мандарины наконец-то закончились, а вот аналитических отчетов стало больше. Мы собрали их, изучили и выделили общие мировые тренды на 2024 год. А на...
Лучшие инструменты с ChatGPT для ИБ-специалиста
Любой инструмент можно использовать как во вред, так и во благо. Точно так же с нейросетью. Пока WormGPT помогает хакерам писать убедительные фишинговые письма на разных языках, ChatGPT уже давно и твёрдо стоит на страже кибербеза. Привет! Меня зовут Александр Быков, я создаю облачные ИБ-сервисы в...
«Хакеры больше не нужны»
«Хакеры больше не нужны». Такую мысль мне «посчастливилось» услышать от знакомого разработчика. Что ж, вызов принят, обратный отсчет 5...4...3... Кратко разберёмся, так ли все мрачно. Вникнуть...
Взламывая ChatGPT: как мы участвовали в хакатоне по атакам на ИИ
Мы поучаствовали в хакатоне от LearnPrompting, посвященном атакам на ChatGPT, и заняли восьмое место среди около четырехсот команд. Если вам интересно, зачем мы провели несколько ночей за взломом чат-бота, как нам пригодился опыт борьбы с фишингом и умеют ли нейросети хранить секреты, — добро...
Как технология распознавания лиц помогает в борьбе с финансовыми мошенничествами?
Можно ли обмануть распознавание лиц? Сколько стоит технология и ее эксплуатация? Как защитить свои персональные данные? Готовы ли банки к атакам дипфейками? Читать далее...
Применяем «колдовство» prompt injection против Гендальфа
На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме. Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью...
Не шути с ChatGPT. Как хайповая нейросеть может применяться в кибератаках и изменить ИБ
Пожалуй, все уже набаловались с ChatGPT, так что пришла пора поговорить о ней максимально серьезно. Технологии искусственного интеллекта влияют на все сферы нашей жизни, включая кибербезопасность – а значит и та самая нейросеть может как применяться для целевых атак и компрометации, так и помогать...
Ломаем текстовую капчу на примере VK или брутфорсинг до сих пор актуален
Что мы знаем о капче? Капча - автоматизированный тест тьюринга, помогающий отсеивать подозрительные действия недобросовестных роботов от реальных людей. Но, к сожалению ( или к счастью, смотря для кого ), текстовая капча сильно устарела. Если еще 10 лет назад она была более-менее эффективным...