Как мы готовили Kubernetes под ML-нагрузки: пошаговый гайд (и что пошло не так)
Привет! Я Дмитрий, инженер и руководитель направления MLOps в Совкомбанке. Специализируюсь на разработке и эксплуатации ML-платформ на базе Kubernetes и GPU.
С 2010 года в ИТ: строю инфраструктуру для машинного обучения, внедряю Kubeflow и GPU-оператор, настраиваю MIG на H100 в корпоративных средах с повышенными требованиями к безопасности и надежности. В последние годы фокусируюсь на оптимизации ML-пайплайнов, повышении утилизации GPU (включая MIG-профили) и интеграции MLOps-практик в процессы продуктовых команд.
В 2022 году в некоторых командах разработки уже существовали проекты с применением ИИ, но как отдельные компоненты, не хватало единой платформы управления. По мере роста количества и сложности бизнес-задач возникла необходимость в создании ML-платформы как сервиса с едиными стандартами авторизации. Мы изучили доступные инструменты, попытались объединить их в одном Kubernetes-кластере, столкнулись с рядом ограничений — и в итоге пришли к архитектуре на базе Kubeflow и GPU-оператора.
В статье рассказываем, какие сложности были в ходе проекта, как выстроили работу с Kubeflow, настраивали H100 с MIG-разделением и что важно учесть, если вы планируете строить ML-платформу на bare-metal-GPU в корпоративной среде.
Читать далееИсточник: Хабрахабр
Похожие новости
- Бесплатно и без СМС: как корпоративные food-карты могут стать идеальной мишенью для социальной инженерии
- ID, token, UUID и slug: в чём разница и почему их нельзя мешать
- Astra Server Core: платформенный подход к замещению инфраструктуры Microsoft
- Product Radar: Экспресс-аудит кибербезопасности, AI-студия для создания мини-сериалов – и ещё 8 российских стартапов
- Мультистейдж-сборка на Docker BuildX: мифы и реальность
- Текст как бензин: Почему в эпоху нейросетей и подкастов старый добрый шрифт всё ещё рулит
- OpenVEX в CI/CD: как перестать бороться с ложными CVE и научить Trivy понимать контекст
- Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года
- OSINT для ленивых. Заметки на полях. Пароли
- Технический трек R-EVOlution Conference 2026: 11 докладов, которые теперь можно посмотреть в записи