Как мы готовили Kubernetes под ML-нагрузки: пошаговый гайд (и что пошло не так)

Все блоги / Про интернет 12 февраля 2026 84

Привет! Я Дмитрий, инженер и руководитель направления MLOps в Совкомбанке. Специализируюсь на разработке и эксплуатации ML-платформ на базе Kubernetes и GPU.

С 2010 года в ИТ: строю инфраструктуру для машинного обучения, внедряю Kubeflow и GPU-оператор, настраиваю MIG на H100 в корпоративных средах с повышенными требованиями к безопасности и надежности. В последние годы фокусируюсь на оптимизации ML-пайплайнов, повышении утилизации GPU (включая MIG-профили) и интеграции MLOps-практик в процессы продуктовых команд.

В 2022 году в некоторых командах разработки уже существовали проекты с применением ИИ, но как отдельные компоненты, не хватало единой платформы управления. По мере роста количества и сложности бизнес-задач возникла необходимость в создании ML-платформы как сервиса с едиными стандартами авторизации. Мы изучили доступные инструменты, попытались объединить их в одном Kubernetes-кластере, столкнулись с рядом ограничений — и в итоге пришли к архитектуре на базе Kubeflow и GPU-оператора.

В статье рассказываем, какие сложности были в ходе проекта, как выстроили работу с Kubeflow, настраивали H100 с MIG-разделением и что важно учесть, если вы планируете строить ML-платформу на bare-metal-GPU в корпоративной среде.

Источник: Хабрахабр

Оцените публикацию

💬 Комментарии

В связи с новыми требованиями законодательства РФ (ФЗ-152, ФЗ «О рекламе») и ужесточением контроля со стороны РКН, мы отключили систему комментариев на сайте.

🔒 Важно Теперь мы не собираем и не храним ваши персональные данные — даже если очень захотим.

💡 Хотите обсудить материал?

Присоединяйтесь к нашему Telegram-каналу:

https://t.me/blogssmartz

Нажмите кнопку ниже — и вы сразу попадёте в чат с комментариями

предыдущая статья

следующая статья

Похожие публикации

Как ЕС собирается регулировать Google и Facebook, и зачем ему это нужно

Оригинальная статья Лео Мирани (Leo Mirani) для Quartz. Перевод — Interweb Pro. *** Ошибаются те, кто думал, что комиссар Евросоюза по цифровой экономике и обществу Гюнтер Эттингер блефовал, когда недавно сказал (статья за пейволом - Roem.ru), что ЕС может обуздать крупные интернет-компании, такие

подробнее »

5 мая 2015

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

о ЗАКОНАХ и НАЛОГАХ: Что ждет бизнес с 1 января 2022 года: новые законы и нормативные акты

Новый год-новые правила. Каждый год в России вступают в силу новые законы и поправки к старым и этот год не исключения. Главные новшества в законах для индивидуальных предпринимателей, субъектов МСП и самозанятых с 1 января 2022 года — читайте в нашем обзоре. Что ждет бизнес с 1 января 2022 года:

подробнее »

21 декабря 2021

Аналитика: Индия — самый быстроразвивающийся онлайн-рынок в мире

Roem.ru продолжает публиковать серию материалов про технологический рынок Юго-Восточной Азии. Сегодня аналитики компании Interweb Pro и международный инвестиционный фонд Digital Media Partners в деталях рассказывают про Индию — страну контрастов c огромным потенциалом роста. КРАТКОЕ РЕЗЮМЕ Индия –

подробнее »

23 сентября 2015

АвтоДилер: Сколько стоит автосервис?

Россия занимает 5 место в мире по величине автопарка. Ежегодное увеличение автопарка повышает спрос на услуги автомастерских, при этом текущий объем СТО неспособен покрыть весь рынок — автосервисы с каждым годом становятся все более доходным видом бизнеса. Сегодня изучим полный путь владельца СТО —

подробнее »

7 декабря 2021

Снятся ли андроидам отечественные датацентры?

Сергей Гордейчик с конца прошлого века интересуется разработкой, белошляпным хакерством, развитием технологий и бизнеса. Работал в РЖД, "Лаборатории Касперского", был CTO и замом гендиректора Positive Technologies. Сейчас увлекается AI, живёт в Дубаи, работает в Абу Даби, преподаёт в барселонском

подробнее »

26 сентября 2019