
Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели.
Читать далееИсточник: Хабрахабр
Источник: Qwertcoser
Другие материалы на сайте b.Z - Записки о гаджетах, людях и музыке