Как мы готовили Kubernetes под ML-нагрузки: пошаговый гайд (и что пошло не так)
Привет! Я Дмитрий, инженер и руководитель направления MLOps в Совкомбанке. Специализируюсь на разработке и эксплуатации ML-платформ на базе Kubernetes и GPU.
С 2010 года в ИТ: строю инфраструктуру для машинного обучения, внедряю Kubeflow и GPU-оператор, настраиваю MIG на H100 в корпоративных средах с повышенными требованиями к безопасности и надежности. В последние годы фокусируюсь на оптимизации ML-пайплайнов, повышении утилизации GPU (включая MIG-профили) и интеграции MLOps-практик в процессы продуктовых команд.
В 2022 году в некоторых командах разработки уже существовали проекты с применением ИИ, но как отдельные компоненты, не хватало единой платформы управления. По мере роста количества и сложности бизнес-задач возникла необходимость в создании ML-платформы как сервиса с едиными стандартами авторизации. Мы изучили доступные инструменты, попытались объединить их в одном Kubernetes-кластере, столкнулись с рядом ограничений — и в итоге пришли к архитектуре на базе Kubeflow и GPU-оператора.
В статье рассказываем, какие сложности были в ходе проекта, как выстроили работу с Kubeflow, настраивали H100 с MIG-разделением и что важно учесть, если вы планируете строить ML-платформу на bare-metal-GPU в корпоративной среде.
Читать далееИсточник: Хабрахабр
Похожие новости
- Налоги, Telegram и абсурд происходящего
- Как стать автором патента на изобретение и получить его за 2,5 месяца
- Сеть, в которой живут агенты: кто нажал Enter и как это проверить
- Не только про производительность — как балансировщик нагрузки обеспечивает отказоустойчивость
- Инсайдер в системе: как аппаратная блокировка перезаписи защищает данные от собственных сотрудников
- ИИ против ИИ: кто победит в кибербезопасности
- Cloud Security Day 2026: что реально обсуждали на сцене и в кулуарах
- Апрельский «В тренде VM»: уязвимость в Microsoft SharePoint
- Цифровая тень: что скрывают под капотом популярные Android-приложения (результаты аудита)
- Это ты на фото? SMS-RAT. Методы обфускации