Как определить LLM под капотом чат-бота: учебный эксперимент по black-box fingerprinting
Когда мы тестируем LLM‑приложение в режиме black box, мы видим только интерфейс: отправили сообщение — получили ответ. При этом модель под капотом может быть любой: DeepSeek, Qwen, GLM, Mistral, Llama, Claude, GPT, Gemini или локальная fine‑tuned модель. Для обычного пользователя это часто неважно. Для security‑тестирования — важно.
В AI cybersecurity это часть reconnaissance: перед тем как оценивать устойчивость приложения к prompt injection, jailbreak‑попыткам, утечкам системного промпта или ошибкам в RAG‑слое, полезно понимать, какая модельная семья работает внутри. Разные модели по‑разному отвечают на странные Unicode‑строки, mixed‑language запросы, вопросы о собственной идентичности, спорные утверждения и безопасные отказы.
Я попробовал воспроизвести идею статьи LLMmap: Fingerprinting For Large Language Models в упрощённом виде: собрать одинаковые probe‑промпты с нескольких моделей OpenRouter и проверить, можно ли отличать модели по совокупности ответов.
Читать далееИсточник: Хабрахабр
Похожие новости
- Моделирование угроз для тех, у кого лапки (и ручки)
- Почему GearUP Booster быстрее VPN и как вообще работают подобные игровые бустеры
- Как выстраивать коммуникацию с международной игровой аудиторией: мнение эксперта
- Ransomware: математический аппарат на службе зла. Способы защиты
- Профессиональные блоги как инструмент роста: что читаете вы?
- Медицина под ударом: как предотвратить утечки данных
- HTTPS-перехват на практике
- Трансформер в on-premise AppSec: как мы встроили ML-модель для классификации секретов в продукт без GPU
- [Перевод] Cilium и защита CI/CD: как опенсорс-проект уровня ядра Kubernetes защищает свою цепочку поставок
- Карго-культ аудита