Почему я не выбираю сервер по цене
Когда у компании подходит срок замены парка серверов, на стол обычно ложатся два-три коммерческих предложения с похожими спецификациями и разной ценой. Дальше происходит типовая ошибка. Закупка смотрит на нижнюю строку и выбирает того, кто дешевле на десять процентов.
Я так не делаю и в этом тексте объясню почему. Сервер живёт у бизнеса пять-семь лет. Цена железа это четверть, максимум треть полной стоимости владения. Остальное прячется в поддержке, запчастях, лицензиях и в простое, когда что-то отказывает в три часа ночи. Ниже разбираю, по каким критериям я сравниваю платформы, как изменился рынок после 2022 года и почему фактический сервис я проверяю до подписания, а не после.
Сразу оговорю жанр. Это методология, а не разбор одного проекта. Цифры даю диапазонами как порядок величин на программах такого масштаба. Конкретный бюджет, сроки и конфигурация у каждой компании свои.
О какой компании речь
Разбираю на типовом профиле, с которым чаще всего работаю. B2B- производство в регионе, порядка 100–150 рабочих мест, одна производственная площадка плюс пара удалённых офисов. Бизнес-системы обычные для такого размера. 1С в клиент-серверном режиме, файловые шары, корпоративная почта, CAD-станции конструкторов, обмены с поставщиками.
Виртуализация почти всегда на VMware vSphere. Резервное копирование это отдельная тема, к ней вернусь ниже, потому что после ухода ряда вендоров с рынка она требует пересмотра. Хранилище это дисковый массив с двумя контроллерами, подключённый через FC-фабрику на коммутаторах Brocade. Здесь важно не путать понятия. Фабрику собирают коммутаторы Brocade, а контроллеры стоят в самом массиве. Это две разные железки, и совместимость надо проверять для каждой.
Парк под замену это порядка шести узлов в основном кластере плюс вспомогательные и резервный. Самые старые узлы отработали пять-семь лет и доживают на расширенной гарантии. По загрузке такой кластер обычно упирается не в процессор, а в дисковый ввод-вывод во время ночных резервных выгрузок. Бюджет на замену с горизонтом окупаемости пять лет для компании этого размера составляет порядка 15–20 млн рублей. Туда входят узлы, апгрейд хранилища и обновление лицензий. На бумаге запас есть. На практике почти всегда впритык.
Какие ограничения я фиксирую до выхода на предложения
Прежде чем запрашивать коммерческие, я закрепляю несколько жёстких рамок. Они отсекают неподходящие варианты на первом письме и экономят недели на пустых переговорах.
- Совместимость с существующей FC-фабрикой без замены коммутаторов Brocade. Менять фабрику это лишние миллионы и дополнительные окна простоя. На горизонте текущей программы это недопустимо.
- Возможность вводить новые узлы поэтапно, параллельно работающему кластеру. Схема «выключили старое, включили новое» исключена из-за рисков по 1С и миграции виртуальных машин.
- Удалённое управление через стандартный BMC с доступом по защищённому каналу. Без облачных порталов вендора, которые могут перестать работать из России в любой момент.
- Поставка от партнёра с юридическим лицом в РФ и договором в рублях. Предложения с оплатой в валюте через офшор я отсекаю сразу.
После этих рамок остаётся короткий список партнёров. Дальше сравниваю предметно.
Четыре критерия, которые я ставлю выше цены
От голой цены за железо как главного критерия я отказываюсь с самого начала. Сравниваю по четырём осям одновременно, и цена тут производная от них, а не первый пункт.
- Полная стоимость владения на пять лет. Железо плюс сервисные контракты, прогноз затрат на расширение и ожидаемые замены компонентов.
- Доступность запчастей в регионе. Есть ли у партнёра локальный склад, как организованы запасы по процессорам, памяти, дискам, блокам питания, RAID-контроллерам.
- Реальная сервис-поддержка на месте. Живой инженер, который доедет на объект в срок, а не удалённая консультация по почте.
- Совместимость с существующим хранилищем. FC-карты, прошивки, multipath-драйверы под нашу версию vSphere, миграция томов без перерезки кабелей.
Главный сдвиг 2022 года. Вендор ушёл, остался партнёр
Любой разговор про западное серверное железо в РФ после 2022 года надо начинать с одного факта. Прямого вендорского присутствия у HPE и Dell в России больше нет. HPE объявил управляемый выход во втором квартале 2022 года и списал на этом более 120 млн долларов. Dell закрыл офисы и полностью свернул операции к августу 2022 года. Из трёх крупных производителей прямую партнёрскую сеть в стране сохранил только Lenovo, и то в сильно сокращённом виде. Это китайский вендор, он с рынка не уходил.
Отсюда главный управленческий вывод, который многие пропускают. После 2022 года вопрос звучит не «какой вендор лучше». HPE и Dell в РФ приезжают через параллельный импорт, а сервис по ним держит не вендор, а локальный партнёр. Значит, выбираю я по сути не бренд на шильдике, а партнёра. Конкретного партнёра, у которого есть локальный склад и живой сервисный ресурс в моём регионе.
Dell PowerEdge. Лучшая цена, серый канал
По Dell картина после 2022 года типовая. Предложения чаще всего самые агрессивные по цене, на десяток процентов ниже конкурентов по сопоставимой конфигурации двухпроцессорных узлов. И тут же начинаются вопросы.
Канал поставки построен через параллельный импорт. Гарантия обычно «по обмену». В случае брака партнёр забирает узел и через месяц-два выдаёт другой. Локального склада запчастей в регионе, как правило, нет. Ближайший склад в Москве, и тот неполный по номенклатуре. Я задаю партнёру прямой вопрос. Что вы делаете, если в среду в одиннадцать вечера умирает диск, а у меня заявлен SLA на замену? Честный ответ по серому каналу звучит так. Курьер из Москвы, ночной рейс, утром инженер на объекте. В сухом остатке это день-полтора от отказа до замены в лучшем случае.
Для массива RAID 6 это терпимо. Для одиночного диска в зеркале уже критично. По общему ощущению PowerEdge это отличное железо. Но в реалиях РФ я плачу не за продукт, а за серый импортно-сервисный контракт. И в случае проблем рычага давления на вендора у меня нет.
Отдельно смотрю на документацию. По серому каналу спецификации часто приходят сборными PDF, не из официального портала, иногда с расходящимися версиями. Спецификация узла свежая, а матрица совместимости с гипервизором двухлетней давности. Партнёр объясняет, что не успел обновить. Для меня это сигнал. Брать оборудование с несогласованной документацией под боевой кластер я не готов.
Lenovo ThinkSystem. Единственный, кто остался прямо
Lenovo тут единственный из тройки, кто сохранил в РФ прямую партнёрскую сеть. Это его главное преимущество перед Dell и над HPE по части канала. Предложения обычно ложатся между Dell и HPE по цене. В конфигурации тот же ThinkSystem в тех же двухпроцессорных узлах с эквивалентной памятью и портами.
Партнёр Lenovo в регионе чаще подтверждает локальный склад запчастей, официальную поддержку через сервисный портал, заявленный выезд на следующий рабочий день по базовому контракту и четыре часа по расширенному. Расширенный контракт на пять лет обычно стоит около пятой части цены железа, это рыночная норма.
Когда я сам не работал на конкретной серверной линейке в бою, это риск, который я обязан назвать вслух. На таком масштабе незнакомая линейка означает не катастрофу, а пару недель на обучение команды и вероятную ошибку в первые полгода эксплуатации. По части прямого канала Lenovo сегодня объективно сильнее ушедших западных вендоров. Поэтому если у команды есть практический опыт на ThinkSystem, я рассматриваю его как сильного кандидата, а не как «средний путь».
Технический момент, который проверяю по любому вендору заранее. Прошивка, которая приедет в первой партии, должна быть в матрице совместимости под ту версию гипервизора, на которую я планирую обновляться. Если нет, после поставки нужен цикл обновления firmware на всех узлах, а это отдельное окно и проверка на тестовом стенде.
HPE ProLiant. Знакомая линейка через партнёра
Здесь важно сразу разделить две линейки HPE, которые часто путают. ProLiant DL3xx это стоечные узлы под классический VMware-кластер, именно их обычно и берут под такую задачу. Synergy это другая архитектура, composable-платформа из шасси и compute-модулей. Про неё скажу отдельно ниже. Если речь про привычный стоечный кластер, мы говорим про ProLiant, а не про Synergy.
Предложения HPE по ProLiant DL3xx обычно дороже Dell и чуть дороже Lenovo. В конфигурации те же процессоры и память, FC-карты под нашу фабрику Brocade и встроенный iLO для удалённого управления. Канал, как и у Dell, идёт через параллельный импорт. Сервис держит партнёр. Поэтому ключевой вопрос по HPE тот же, что по любому западному железу. Что у этого конкретного партнёра реально лежит на складе и кто из инженеров выезжает.
Где HPE даёт мне преимущество лично, так это знакомая линейка. Я разворачивал кластеры на ProLiant нескольких поколений. iLO знаю на уровне командной строки, контроллеры SmartArray настраиваю без документации, OneView применял в бою. Это переводится в скорость. Знакомую платформу я принимаю в эксплуатацию на неделю-полторы быстрее незнакомой. Это реальный фактор выбора, но это мой личный опыт, а не свойство бренда. У другой команды плюс будет на той линейке, которую знают они.
Когда я смотрю в сторону Synergy
Composable-платформу Synergy я рассматриваю не как замену стоечному ProLiant, а как отдельную опцию под конкретный сценарий. Она оправдана, когда понятен горизонт расширения и нужна плотность. Если я знаю, что через два-три года кластер вырастет с шести узлов до восьми-десяти, Synergy даёт наращивание добавлением модулей без замены шасси. Но это решение принимают заранее и осознанно. Смешивать его с закупкой обычных стоечных узлов нельзя, это разные деньги и разная логика.
Совместимость с хранилищем. Что проверяю отдельно
FC-фабрику на коммутаторах Brocade я проверяю по матрице совместимости до подписания. Какие HBA-карты сертифицированы с какими прошивками под наши коммутаторы. Хороший партнёр даёт такую матрицу с отметками о версиях firmware, в том числе тех, что уже стоят на наших коммутаторах. Это снимает основной риск интеграции. Дополнительно прохожу по матрице совместимости гипервизора для каждого узла. Это процессор, память, HBA, сетевые карты. Если хоть одна позиция требует отдельного апгрейда прошивки, это не стоп-фактор, но это лишнее окно, которое надо заложить в план.
Как это выглядит в сравнении
Свожу четыре критерия в таблицу. Цифры здесь дают порядок величин для тройки вендоров на рынке РФ после 2022 года, не котировку конкретной сделки.
›Цена железа (отн. HPE = 100%)
- Dell PowerEdge
- около 86–88%
- Lenovo ThinkSystem
- около 93–95%
- HPE ProLiant
- 100%
›Канал в РФ после 2022
- Dell PowerEdge
- Параллельный импорт
- Lenovo ThinkSystem
- Прямая партнёрская сеть
- HPE ProLiant
- Параллельный импорт
›Сервис держит
- Dell PowerEdge
- Локальный партнёр
- Lenovo ThinkSystem
- Партнёр + вендор
- HPE ProLiant
- Локальный партнёр
›Локальный склад в регионе
- Dell PowerEdge
- Зависит от партнёра, чаще нет
- Lenovo ThinkSystem
- Зависит от партнёра
- HPE ProLiant
- Зависит от партнёра
›Документация по серому каналу
- Dell PowerEdge
- Риск расхождения версий
- Lenovo ThinkSystem
- Официальный портал
- HPE ProLiant
- Зависит от партнёра
›Совместимость с хранилищем
- Dell PowerEdge
- Проверять отдельно
- Lenovo ThinkSystem
- Проверять отдельно
- HPE ProLiant
- Проверять отдельно
›Мой личный опыт на линейке
- Dell PowerEdge
- Есть
- Lenovo ThinkSystem
- Зависит от команды
- HPE ProLiant
- Глубокий
Главный вывод из таблицы не в том, какой бренд победил. По большинству строк решает не вендор, а партнёр. Прямой канал сегодня есть только у Lenovo. По остальному я сравниваю не логотипы, а склады, инженеров и фактические сроки.
Фактический SLA важнее контрактного
Это самый недооценённый критерий. На этапе выбора партнёры показывают контрактные SLA. Четыре часа, следующий рабочий день, столько-то часов. Это бумажные обещания. Реальный вопрос другой. Какое фактическое время замены вышедшего из строя компонента партнёр показывает по моему региону за последний год.
Я прошу партнёра поднять журналы тикетов своей сервисной службы за последние два-три квартала и дать среднее фактическое время от заявки до момента, когда отказавший компонент физически заменён в стойке. Не среднее по миру и не цифру вендора. Именно по региону и по реальным обращениям. Что показывает практика по западному железу через серый канал.
| Канал | Контрактный SLA | Фактически, порядок величин |
|---|---|---|
| Прямой партнёр, склад в регионе | 4 часа on-site | 1–2 рабочих дня |
| Партнёр без локального склада | Next business day | 3–5 рабочих дней |
| Серый канал, склад в Москве/Европе | часы по бумаге | от недели и больше |
Это и есть смысл проверки. Контрактные четыре часа подразумевают инженера с компонентом в стойке за четыре часа при условии, что компонент лежит на локальном складе. Если компонент едет из Москвы, добавляется логистика. Если из Европы по серому каналу, добавляется ещё неделя. Разница между «один-два дня» и «от недели» на каждый инцидент с одиночным диском или контроллером это критический риск для боевого кластера, и он не виден в бумажном контракте.
Что я обычно вижу за первый год
Дальше идёт типичный профиль инцидентов на стоечном кластере из шести узлов, который я наблюдаю за первый год эксплуатации. Это не хроника одного проекта, а то, к чему я готовлю заказчика и что проверяю в процессе.
| Типовое событие | Как часто | Что проверяю |
|---|---|---|
| Замена диска в массиве | 1–2 раза за год на кластер | Замена на горячую, без простоя бизнеса |
| Отказ RAID-контроллера | Редко, но бывает | Миграция виртуальных машин на соседний узел заранее |
| Отказ блока питания | Единичные случаи | Резервный модуль держит нагрузку |
| Плановое обновление firmware | Регулярно | Последовательное обновление узлов без остановки кластера |
Главное, что я закладываю в архитектуру. Ни один из этих инцидентов не должен приводить к простою бизнеса. Дисковые замены идут на горячую. Контроллер меняют с предварительной миграцией виртуальных машин на соседний узел. Блок питания дублирован. Фактический срок замены при этом почти всегда больше контрактного, и это нормально для текущего рынка. Смысл сервиса не в красивых четырёх часах на бумаге, а в нуле минут простоя при любом инциденте.
Что обычно шероховато. Порталы партнёров для заявок работают медленнее заявленного, время первого ответа инженера часто чуть выше контрактного, и иногда приходится эскалировать звонком напрямую. Это не критично, но это надо знать и закладывать процедуру эскалации в договор.
Развёртывание и приёмка
От подписания до полной приёмки стоечного кластера в эксплуатацию закладываю порядка двух-трёх месяцев. Львиная доля тут это поставка по текущему рынку. Дальше монтаж в серверной, настройка управления, подключение к фабрике, поэтапный ввод узлов в существующий кластер и миграция виртуальных машин со старого парка на горячую. Простоя для бизнеса при правильной организации ноль. Новые узлы добавляются в работающий кластер, старые выводятся через режим обслуживания после освобождения.
Что даёт нормальный мониторинг
Современный BMC отдаёт детальную телеметрию. Температуры по компонентам, обороты вентиляторов, износ батареи контроллера, прогноз отказа по дискам. Я подключаю это через API в систему мониторинга и получаю предупреждение заранее в большинстве случаев. На практике это означает, что часть замен я планирую в окно, а не ловлю аврал ночью. Предсказанный отказ батареи контроллера обычно приходит за одну-две недели, этого хватает, чтобы спокойно заказать компонент и заменить его с предварительной миграцией.
TCO на пять лет. Где прячутся деньги
На этапе выбора я считаю стоимость владения по статьям, а не по цене железа. Структура для кластера из шести узлов на пятилетнем горизонте выглядит примерно так. Это порядок величин, не котировка.
| Статья | Доля в TCO | Что закладываю |
|---|---|---|
| Железо (узлы + апгрейд хранилища) | около 25–35% | Базовая закупка, цена покупки |
| Сервисный контракт на 5 лет | около 15–20% цены железа | Поддержка, выезды, замены по гарантии |
| Лицензии виртуализации | крупная статья | Отдельный риск, считаю ниже |
| Расширение памяти и дисков | плановая статья 2–3 года | Запас под рост нагрузки |
| Простой бизнеса из-за инцидентов | скрытая статья | Главная переменная, зависит от фактического SLA |
Последняя строка решает всё. Именно через неё дешёвое железо по серому каналу на пятилетнем горизонте часто оказывается дороже более дорогого варианта с реальным сервисом. Считаю я просто. Сколько событий замены одиночного диска или контроллера статистически ожидается за пять лет на парк из шести узлов, какая часть из них рискует совпасть с критическим окном производства, и сколько стоит сутки простоя для этого бизнеса. Когда подставляешь фактические сроки замены вместо контрактных, разница в цене железа в десять процентов перекрывается одним-двумя предотвращёнными простоями.
Лицензионный риск VMware я считаю отдельно
Отдельная строка, которую в 2024–2026 годах нельзя считать фиксированной. После поглощения VMware компанией Broadcom модель лицензирования изменилась. Привычная отдельная лицензия Enterprise Plus фактически ушла в пакеты VCF и VVF, схема перешла на подписку, и стоимость для многих заказчиков выросла. Поэтому строку лицензий я закладываю не как константу, а как фактор риска и считаю несколько сценариев.
Сюда же добавляю сроки поддержки самой версии гипервизора. Брать железо на пять-семь лет под версию, у которой общая поддержка заканчивается через год-полтора, это ошибка планирования. vSphere 7.0 доходит до конца общей поддержки в октябре 2025 года. Значит, для закупки в 2024 году целиться надо в 8.0, а не планировать жить на семёрке весь срок амортизации железа. Это влияет и на матрицу совместимости, по которой я проверяю узлы.
Резервное копирование это третий узел того же риска. Veeam ушёл с российского рынка в 2022 году. Продолжать строить защиту на нём значит идти на осознанный компромисс с риском по обновлениям и поддержке, который надо называть вслух. Из реестра под замену смотрю в сторону «Кибер Бэкап» от Киберпротекта или RuBackup. Если заказчик принимает решение остаться на привычном продукте, это его право, но я фиксирую риск письменно, а не прячу его в строку TCO.
Что я делаю на старте, чтобы не переплатить
Запрашиваю фактическую статистику замен с первого письма
Самый сильный приём в этой методологии. С первого же письма партнёрам прикладываю один вопрос. Поднимите журналы тикетов вашей сервисной службы за последние два-три квартала по моему региону и дайте среднее фактическое время от заявки до замены диска, контроллера и блока питания. Если статистики нет, так и напишите.
Реакция партнёра на этот вопрос говорит больше любого предложения. Кто даёт цифры, пусть и хуже контрактного SLA, с тем можно работать. Молчание в ответ это повод вычеркнуть, каким бы привлекательным ни выглядело предложение по цене.
Закладываю пени за нарушение SLA в договор
Штатная формулировка «партнёр прилагает максимальные усилия» меня не устраивает. В договор вношу понятную поправку. За каждые несколько часов превышения SLA идёт небольшой процент от месячной стоимости контракта в виде кредита на следующий период. Адекватный партнёр на это идёт, потому что ему самому выгоднее держать SLA, чем платить.
Разделяю стоечный кластер и composable-платформу заранее
Если горизонт расширения понятен и нужна плотность, вопрос про composable-платформу типа Synergy надо ставить до закупки, а не во второй итерации. Но для большинства задач этого размера стоечный ProLiant DL3xx проще, дешевле и проверен. Я не выношу Synergy в одно предложение со стоечной закупкой и не считаю их взаимозаменяемыми.
Согласовываю порядок поставки до подписания
Поставка «партия из шести узлов за несколько недель» почти всегда растягивается. Чтобы не ждать всю партию ради старта миграции, я заранее согласовываю поэтапный ввод. Первые два узла идут на подключение и тест, следующие два за ними, и так далее. Это экономит недели общего срока программы, потому что не блокирует миграцию ожиданием последнего узла.
Звоню коллегам в регионе, а не верю партнёрам на слово
В любом регионе есть компании с похожим стеком, которые уже купили эту инфраструктуру год-два назад. Полчаса разговора с директором по ИТ такой компании дают больше, чем неделя проверки партнёрских обещаний. Раньше я этого стеснялся. Теперь делаю по умолчанию. Спрашиваю про реальный опыт эксплуатации напрямую у тех, кто уже прошёл этот путь.
Для кого это важно
Если впереди модернизация инфраструктуры и на столе два-три коммерческих предложения, пришлите мне их через форму контакта (NDA подпишу до получения). Я разберу каждое по критериям, которые описал выше, и покажу, где партнёр продаёт бумажный SLA, а где реальный сервис.
По каждому предложению я задаю партнёру три конкретных вопроса. Первый. Дайте фактическую статистику замен по моему региону за последний год. Второй. Что физически лежит на локальном складе сейчас, со списком артикулов и количеством. Третий. Кто из ваших клиентов в моём регионе работает по этому контракту больше года и могу ли я с ним поговорить. Партнёр, который не отвечает на эти вопросы конкретно, не подходит, даже если предложение выглядит лучше остальных.
Если железо уже есть и нужно понять, как живёт инфраструктура на пятилетнем горизонте, посмотрите методологию аудита по 9 доменам (инфраструктура идёт доменом 2). Про восстановление из резервной копии под нагрузкой писал в разборе инцидента на собственном сервере. Как я в принципе подхожу к роли внешнего ИТ-директора, смотрите на странице услуг.
Я работаю с этим напрямую — ознакомительный звонок 30 минут
Расскажете ситуацию — отвечу за 4 часа в рабочее время. Звонок бесплатный, без обязательств. Если задача не моя — порекомендую коллег, у которых она хорошо ляжет.