Я заставил 14 нейросетей врать: Большой аудит галлюцинаций 2026

Все блоги / Про интернет 27 января 2026 28   

Или как я потратил неделю, чтобы доказать: ИИ сегодня — это красноречивые лжецы в костюмах экспертов.

В конце 2025 года я устал читать маркетинг в стиле «наша модель умнее ChatGPT на 15%». Умнее по какому бенчмарку? MMLU? Это всё равно что мерить интеллект человека по результатам ЕГЭ.

Я решил проверить одну простую вещь: способна ли нейросеть сказать «я не знаю»?

Потому что в реальном мире — в медицине, праве, финансах — ответ «я не уверен» стоит дороже любой красивой, но выдуманной истории.

Ниже — результаты слепого тестирования 14 топовых LLM (включая Claude 4.5, GPT-5.2, Gemini 3, Qwen, YandexGPT и GigaChat).

Спойлер: Copilot оказался самым надежным, Claude — самым умным, а китайский Qwen неожиданно «уделал» GPT.

Смотреть результаты
  • Оцените публикацию
  • 0

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

Похожие публикации

Архив публикаций