[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок

Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели.

Источник: Хабрахабр

Источник: Qwertcoser

Перейти на сайт

Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке