Data Gravity и отравление выборки
Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит.
Открыть материалИсточник: Хабрахабр
Похожие новости
- Хак сортировки новостей по цифровому коду (Плагин для DLE 13-19.1)
- Путаница в уязвимостях WSUS: ставим все на свои места
- Хостеры против VPN: что на самом деле скрывают поправки “Антифрод 2.0”
- Как я чуть не потерял свои скрипты из-за того, что РКН и Telegram не поделили IP-адреса
- Sber X-TI: разбираем бесплатную платформу кибербезопасности от Сбера
- От правил корреляции к когнитивному ассистенту: что меняется в архитектуре SOC с приходом ИИ
- Правда все: Убьет ли ИИ достоверность в онлайне?
- PUNKT E: PUNKT E консолидирует рынок, приобретая операторский бизнес Sitronics Electro
- Квантовая криптография: принципы, протоколы, сети
- SIEM: когда он нужен, правила пользования и как выявить его эффективность