Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026
Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.
В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.
Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?
Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.
Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и GigaChat).
Спойлер: Copilot оказался самым надежным, Claude — самым умным, а китайский Qwen неожиданно «уделал» GPT.
Смотреть результатыИсточник: Хабрахабр
Похожие новости
- Запущен ещё один бесплатный сервис для проверки текстов на соответствие закону об англицизмах
- Рейтинг Рунета выпустит первый рейтинг компаний, занимающихся продвижением в нейросетях
- SD-WAN + NGFW: почему разрыв между сетью и безопасностью обходится дорого
- Феномен OpenClaw: почему инженерная обвязка стала важнее нейросети
- «А трактор случайно не в залоге?» — история одной интеграции с ФЦИИТ
- Design by Contract в эпоху AI: как контракты Мейера защищают криптографию там, где тесты молчат
- Schnorr/MuSig2 Nonce-Forensics:
- SEBERD IT Base: почему я сделал ещё один сайт про кибербезопасность и зачем
- Приватная Cвязь на Go и Flutter
- Манифест созидателя