Пожалуйста, обратите внимание: книга представлена в нескольких форматах, но для комфортного просмотра содержащихся в ней графических материалов и таблиц мы рекомендуем формат pdf.
Вопросы и комментарии просим направлять по адресу marketing@linxdatacenter.com.
encoding and publishing house
© Издательство «Aegitas», 2024
Об авторах
Тарас Чирков – директор по эксплуатации ЦОД Linx Datacenter. Тарас обладает обширным опытом работы в ИТ-сфере: ранее занимался развитием ИТ-инфраструктуры компании Beeline в Северо-Западном регионе, управлял ИТ-инфраструктурой олимпийских объектов в компании AtoS на Олимпийских играх 2014 г. в Сочи.
Более десяти лет Тарас со своей командой обеспечивает бесперебойную работу ЦОД Linx Datacenter, управление системами обеспечения жизнедеятельности дата-центра, физической и информационной безопасности. Накопленный опыт лег в основу нового направления консультационных услуг в сфере эксплуатации ЦОД, обучающих курсов на базе АНО КС ЦОД и публикаций.
Под руководством Тараса Linx Datacenter подготовлен к аудиту на соответствие международным стандартам: Management & Operations Stamp of Approval от Uptime Institute, ISO 9001, ISO 27001, ISO 22301 с последующим подтверждением сертификации Британским институтом стандартов BSI, PCI DSS, SAP Cloud and Infrastructure Operations.
Тарас имеет сертификации в области управления дата-центрами – Accredited Operations Specialist от Uptime Institute и Certified Data Centre Facilities Operations Manager. Он сертифицированный ведущий аудитор BS ISO/IEC 27001:2013.
Константин Нагорный – главный инженер Linx Datacenter в Санкт-Петербурге. Присоединился к команде Linx в 2009 г. и за несколько лет прошел путь от рядового инженера ЦОД до главного инженера.
Основные достижения его профессиональной деятельности: участие в проекте строительства и запуске в эксплуатацию ЦОД Linx Datacenter в Санкт-Петербурге, бесперебойная работа ЦОД с момента его основания, руководство проектом разработки и внедрения системы мониторинга ЦОД, организация процессов и разработка документации, регламентирующих работу и обучение персонала службы эксплуатации ЦОД.
Константин имеет сертификацию Accredited Tier Designer от Uptime Institute. Читает курс лекций по эксплуатации дата-центров на базе тренингового центра АНО КС ЦОД.
Андрей Чеснов – главный энергетик Linx Datacenter в Санкт-Петербурге, в Linx работает более 10 лет. Ранее был главным энергетиком на крупном производственном предприятии, принимал участие в его строительстве и эксплуатации.
Андрей имеет богатый опыт обслуживания и эксплуатации различных инженерных систем, отвечает за организацию производственных процессов и поддержание безопасной и бесперебойной работы систем жизнеобеспечения ЦОД, осуществил модернизацию системы резервного энергоснабжения.
Андрей прошел обучение по направлению «Сертифицированный специалист в области ЦОД» (Certified Data Center Specialist (CDCS) от Hewlett Packard Enterprise. Читает курс лекций по эксплуатации дата-центров на базе тренингового центра АНО КС ЦОД.
Авторы руководили подготовкой ЦОД Linx Datacenter к прохождению аудита Uptime Institute на соответствие инфраструктуры и процессов ее эксплуатации требованиям Management & Operations Stamp of Approval в 2018, 2020, 2021 и 2023 г.
Приветственное слово от генерального директора Linx
Уважаемые читатели!
Рад представить вам книгу «Эксплуатация ЦОД: практическое руководство» – превосходный инструмент для всех, кто стремится улучшить процессы эксплуатации в уже действующем дата-центре или организовывает их с нуля. Авторами пособия являются сотрудники нашей компании, уже более 20 лет предоставляющей решения в сфере хранения и обработки данных на базе собственных дата-центров.
ЦОД как площадка для хранения данных и размещения стремительно развивающихся облачных сервисов играет важную роль в обеспечении безопасности и операционной устойчивости ключевых процессов работы любой компании. Команда специалистов, создавшая данное практическое пособие, не только обладает богатым опытом по организации бесперебойной работы ЦОД, но и единственная в России четыре раза прошла аудит Management & Operations от Uptime Institute, благодаря чему ЦОД Linx вошел в топ-15 дата-центров в мире с подтвержденной высокой экспертизой в области эксплуатации ЦОД.
Книга «Эксплуатация ЦОД: практическое руководство» предлагает читателям практические советы и рекомендации, разработанные на базе лучших практик отрасли и адаптированные с учетом требований российского законодательства и реалий. Это руководство – идеальный помощник для всех, кто хочет выстроить процессы эксплуатации своего дата-центра в соответствии с самыми высокими стандартами отрасли.
Я горжусь тем, что могу представить вам данное руководство. Уверен, что вы найдете в нем ценные сведения, которые будут способствовать стабильной работе ЦОД и развитию бизнеса вашей компании.
С наилучшими пожеланиями,
Михаил Ветров,
генеральный директор Linx
Вступление от научного редактора
Российский рынок беден печатными изданиями, посвященными центрам обработки данных (ЦОД). Еще менее доступны источники, освещающие принципы и подходы к организации служб эксплуатации таких объектов. Между тем, учитывая важность и значимость ЦОД в нашей повседневной жизни и ограниченность информации о них, источники знаний о данной теме жизненно необходимы. В этой связи появление книги, посвященной эксплуатации ЦОД, – более чем важное событие.
Подходить к данной теме можно по-разному. Та информация, которую можно найти в интернете и немногочисленных публикациях, зачастую кажется очень общей по характеру изложения, и, хотя и, безусловно, способствует углублению знаний и пониманию тематики, но не дает конкретных, практических указаний по реализации принципов организации эксплуатации и технического обслуживания ЦОД. Отрадно видеть, что настоящее издание фокусируется именно на конкретных указаниях и живых примерах того, как эти принципы реализуются в повседневной работе.
ЦОД бывают разными – по назначению, сфере применения, масштабу, принципам построения и особенностям использования. Однако их роднит то, как реализуются принципы их повседневной эксплуатации. Реализация этих принципов может быть различной, но, применяя существующие на мировом рынке методологии и механизмы оценки уровня эксплуатации, можно выделять те объекты, которые стоят в авангарде отрасли. В этом контексте ЦОД Linx Datacenter – уникальный объект, четырехкратно награжденный оценкой Management and Operations Stamp of Approval. Эту оценку присуждает консалтинговая компания Uptime Institute – признанный отраслевой лидер мирового масштаба в сфере сертификации ЦОД по уровням Tier, отражающим степень надежности и качество эксплуатации центров обработки данных.
ЦОД Linx Datacenter на сегодняшний день – единственный в России (а, возможно, и в Европе), четырежды успешно прошедший аудит Management and Operations и получивший высокие оценки Uptime Institute. Стремление ключевых сотрудников данного объекта поделиться своим опытом в сфере эксплуатации нельзя расценивать иначе, как значительный вклад в популяризацию знаний об эксплуатации критических объектов.
Данная книга – особенная. Она идет много дальше общих рекомендаций по эксплуатации и дает массу практических советов, сопровождаемых примерами и иллюстрациями, о том, как подобрать необходимый персонал службы эксплуатации и рассчитать его численность, сформировать программы технического обслуживания инженерной инфраструктуры ЦОД, сформулировать и описать необходимые процессы и процедуры эксплуатации, корректно документировать их и обеспечить их доступность для службы эксплуатации, как управлять уровнем оказания услуг объекта, как отслеживать состояние складов, наличие необходимых инструментов, управлять повседневными операциями на объекте, обеспечивать безопасность труда и многое-многое другое.
Несмотря на кажущуюся очевидность того, как следует построить эксплуатацию объекта, ее практическая реализация – весьма нетривиальная задача, успешно решить которую под силу не каждому. В этом ключе данный труд – настоящий подарок для каждого участника отрасли ЦОД.
Эта книга станет незаменимым пособием по организации повседневной эксплуатации ЦОД для их владельцев, технических директоров, руководителей служб эксплуатации, ответственных лиц в данной сфере и линейных сотрудников служб эксплуатации. Учитывая универсальность излагаемых принципов и подходов, книга применима даже шире, нежели исключительно в отрасли ЦОД, – излагаемые знания и практические указания применимы для любых критических объектов.
Константин Королев,
директор по развитию бизнеса
в России и СНГ, Uptime Institute
Введение
Центры обработки данных (ЦОД) приобретают все более важное и критическое значение для повседневной жизни. Особенность их функционирования – беспрерывная и круглосуточная работа. Даже минутные простои могут иметь катастрофические по степени финансового и репутационного ущерба последствия для организации или, в случае отказа каких-либо популярных сервисов, стать заметными по всему миру даже для людей, не связанных с ИТ-индустрией.
По опубликованным данным[1] опросов представителей отрасли, до 79 % респондентов испытывали проблемы, связанные с жизнедеятельностью ЦОД, за последние три года. По нашей собственной десятилетней статистике инцидентов, это число составляет примерно 65 %. Согласно статистическим исследованиям Uptime Institute, 75 %[2] отказов в ЦОД связаны с человеческим фактором. Когда мы только начинали переосмыслять работу службы эксплуатации в 2015 г., эта цифра достигала лишь 70 %.
Человеческий фактор включает в себя ошибки дежурного персонала ЦОД, но, что более важно, также говорит о принятии неверных управленческих решений в отношении подбора сотрудников, выстраивания процессов обслуживания, обучения и общей тщательности выполнения работ по техническому обслуживанию или повседневной деятельности. Независимо от топологии инфраструктуры дата-центра, человеческий фактор представляет наибольший риск для его работоспособности, так как на долю отказов оборудования приходится относительно малая часть инцидентов. Следовательно, целесообразно направлять усилия на устранение большего процента рисков, связанного с человеческими ошибками при эксплуатации. Из них 48 %[3] связано с неверным выполнением процедур, 41 % – с неверно организованными процессами или процедурами.
При правильно организованной системе эксплуатации, даже с несовершенной инженерной инфраструктурой и незначительным уровнем резервирования, ЦОД может иметь лучшее время беспрерывной работы, чем ЦОД с высоким уровнем резервирования систем, но с плохо выстроенной и организованной эксплуатацией. Недостатки инфраструктуры и низкий уровень резервирования можно компенсировать продуманными организационными мерами.
Мы – команда, которая уже более 10 лет занимается эксплуатацией ЦОД, – хотим поделиться с вами своим опытом организации современной модели эксплуатации ЦОД.
Современный подход к управлению эксплуатацией охватывает не только организацию качественной эксплуатации инфраструктуры ЦОД, но и контроль других сопряженных направлений – ИТ/телеком, службы поддержки, уборки, охраны, порядка доступа и пребывания сотрудников ЦОД, клиентов и подрядчиков на территории ЦОД.
Отметим, что описанная ниже модель эксплуатации даст результат только в случае реального осмысления принципов, описанных в этой книге, адаптации их под ваши процессы и самостоятельного внедрения с каждодневным использованием. В этом случае вы получите самоподдерживающуюся экосистему процессов и документации, позволяющую сохранять информированность сотрудников и качество процессов на уровне, позволяющем пройти любой аудит без предварительной подготовки.
В случае же разового точечного внедрения данной системы с целью пройти конкретный аудит вы, конечно же, достигнете временного результата, но все ваши усилия будут напрасны в долгосрочной перспективе, и каждый новый аудит будет вызывать страх и авральные приготовления как руководства, так и рядового персонала.
Мы также не рекомендуем заказывать услуги по созданию документации службы эксплуатации «под ключ». Это внедрение приведет к аналогичному временному результату. Без участия персонала – как руководящего звена, так и рядовых дежурных сотрудников – это все не будет работать. Важно платить деньги не за готовые формальные документы, а за качественное обучение вашего персонала, который сам уже потом применит полученные знания и создаст все требуемые процессы и инструкции, возможно, даже где-то улучшив предложенную концепцию.
Также следует бороться с формальным подходом к процессам со стороны дежурных инженеров ЦОД. Чаще всего он выражается в некачественном ведении отчетности, недостаточном контроле за работой подрядчиков, заполнении чек-листов не в процессе выполнения задачи, а задним числом (например, обход объекта без чек-листа и заполнение его потом). Руководству требуется вести непрерывный контроль, разъяснительную работу, мотивирование и выборочные проверки качества выполнения процедур дежурными, иначе все усилия руководителей могут быть перечеркнуты отношением сотрудников. А лучшим стимулом является собственный пример. Одновременно надо оценивать внедряемые процедуры и документы на предмет минимизации всего того, что требуется заполнять или отправлять в виде отчета. Новые процессы и документы должны упрощать работу руководителей и сотрудников, а не усложнять ее.
Виды ЦОД
Согласно ГОСТ Р 58811–2020, п. 3.1.13, «Центр обработки данных; ЦОД: Специализированный объект, представляющий собой связанную систему ИТ-инфраструктуры и инженерной инфраструктуры, оборудование и части которых размещены в здании или помещении, подключенном к внешним сетям, как инженерным, так и телекоммуникационным».
С точки зрения процессов под центрами обработки данных (ЦОД) мы будем подразумевать такие ИТ-площадки, которые достигли некоторого объема и зрелости процессов внутри организации, позволяющих организовывать эксплуатацию инженерной инфраструктуры отдельно от ИТ-инфраструктуры. В противном случае, когда поддержкой инженерной инфраструктуры ЦОД по старой памяти продолжает заниматься команда ИТ-отдела, это малоэффективно.
Наилучшее решение здесь – использование услуг колокации.
Колокация, колокейшн (от англ. colocation, сокращенно colo) – услуга, состоящая в том, что провайдер услуги размещает оборудование клиента в своем дата-центре, подключает его к электричеству, обеспечивает обслуживание и подключение к каналам связи с высокой пропускной способностью[4].
Данная услуга востребована, так как для поддержания инженерной инфраструктуры ЦОД неспециализированной ИТ-компании потребуется достаточно большое количество непрофильных для нее процессов и специалистов, таких как электрики, механики и т. д.
По построению инфраструктуры и организации эксплуатации ЦОД условно можно разделить на три категории:
• Корпоративные ЦОД. Для внутренних ИТ-нужд организаций.
• Гиперскейл-ЦОД[5], дата-центры крупных интернет-компаний, мировых лидеров ИТ-индустрии.
• Колокейшн-провайдер ЦОД[6]. Коммерческие дата-центры.
Корпоративные ЦОД в большинстве случаев относительно просты по уровню резервирования и обслуживания. Круг решаемых задач очевиден и формулируется заранее, что позволяет выбрать, например, однотипное оборудование с низкими требованиями к параметрам окружающей среды. У таких ЦОД лишь один внутренний клиент, с которым достаточно просто договориться об остановке ЦОД для проведения каких-либо работ. Естественно, есть корпоративные ЦОД, отказ которых может быть видимым для всех, и к таким ЦОД предъявляются самые жесткие требования по инженерной структуре и бесперебойной работе. Но обычно это характерно лишь для достаточно крупных организаций, а в остальных случаях корпоративный ЦОД – просто «серверная комната».
Гиперскейл-ЦОД – гипермасштабируемые ЦОД, зачастую имеют меньшее резервирование компонентов инженерной инфраструктуры, так как падение ЦОД может быть компенсировано другими ЦОД этой же организации, что значительно удешевляет строительство ЦОД при мощности в сотни мегаватт. Такие ЦОД могут позволить себе использовать специально заказанное у вендора ИТ- и телеком-оборудование, способное работать в гораздо более широких температурных диапазонах с очень низкими запросами к внешней среде (например, нормальная температура эксплуатации до +40 °C без требований к уровню влажности), позволяя упростить системы охлаждения и требования к ним.
Колокейшн-провайдеры – компании, предоставляющие места в своих ЦОД для коммерческих клиентов. Тут применяются наиболее жесткие требования по беспрерывной работе и температурно-влажностным режимам по причине того, что диапазон размещаемого оборудования может быть очень широк по своим эксплуатационным параметрам и ЦОД должен соответствовать самым жестким требованиям. Для колокейшн-провайдеров характерны дополнительные специфические аспекты, которые требуют четкой регламентации, например наличие службы физической безопасности и отдела поддержки клиентов.
Соответствие сертификационным стандартам и действующим нормам
Для ЦОД, особенно коммерческих, важно соответствие международным стандартам. В данном случае мы будем говорить только о тех стандартах или частях стандартов, которые относятся к службе эксплуатации ЦОД, не затрагивая аспекты строительства инфраструктуры, безопасности и т. д. Даже если вы не проходите официальную сертификацию, существуют еще и внутренние аудиты от клиентов ЦОД или внутренних служб, которые должны удостоверять, что эксплуатация выстроена правильно. Таким образом, целесообразно оценивать свою деятельность именно по существующим стандартам.
Для этого мы рассмотрим основные зарубежные и отечественные стандарты и нормативные документы, регламентирующие операционную деятельность ЦОД.
Uptime Institute Tier Standard: Topology (TS: T)
Стандарт американской консалтинговой компании Uptime Institute знаменит тем, что именно в нем излагается разработанная компанией и ставшая широко известной по всему миру классификация ЦОД по четырем уровням надежности (Tier), многократно повторенная позже в других стандартах.
Поскольку мы по ходу изложения будем упоминать эти уровни, напомним читателю об их сути и принципиальных отличиях.
• Tier I предполагает наличие базового набора элементов, позволяющего ЦОД выполнять свои функции;
• Tier II подразумевает наличие резервирования активных компонентов инфраструктуры (ДГУ, ИБП, чилеры, внутренние блоки системы кондиционирования и пр.);
• Tier III определяется такой топологией, которая позволяет проводить плановое обслуживание систем и любых их компонентов без прерывания работы ЦОД;
• Tier IV обеспечивает работоспособность ЦОД при любом единичном отказе в любой точке инфраструктуры.
С точки зрения эксплуатации ЦОД, Tier I и Tier II предполагают вынужденные остановки ЦОД на обслуживание, в то время как Tier III и Tier IV позволяют выполнять все необходимые работы по обслуживанию ЦОД без прерывания сервисов. Это обстоятельство, наряду со сравнительной простотой реализации ЦОД уровня Tier III по сравнению с Tier IV, обуславливает широкое распространение ЦОД уровня Tier III как в России, так и за рубежом.
Однако данный стандарт, излагая классификацию и принципы реализации ЦОД всех четырех уровней, никак не затрагивает подходы к эксплуатации и техническому обслуживанию ЦОД. Они описаны в другом стандарте Uptime Institute, о котором мы говорим далее.
Uptime Institute Tier Standard: Operational Sustainability (TS: OS)
На наш взгляд, это наиболее полный по содержанию документ, в общих принципах описывающий все аспекты эксплуатации ЦОД. Стандарт состоит из трех разделов: 1) Management and Operations («Управление и эксплуатация»); 2) Building Characteristics («Характеристики здания»); 3) Site Location («Место расположения здания»).
Первый раздел затрагивает следующие категории:
• подбор персонала и организация работ;
• обслуживание;
• обучение;
• планирование, координация и управление;
• условия эксплуатации.
Выполнение только первого раздела дает аттестацию Management and Operations (M&O), проводимую Uptime Institute. Второй и третий разделы требуются для прохождения полноценной сертификации Operational Sustainability («Эксплуатационная устойчивость») как завершающей части еще двух сертификаций: Design Documentation («Проектная документация») и Constructed Facility («Построенный объект»).
Второй раздел стандарта – Building Characteristics – также содержит требования к приемо-сдаточным испытаниям оборудования, что является неочевидным с точки зрения регламентирования этого требования. Наличие раздела Site Location также вызывает вопросы, так как на этапе оценки эксплуатационной устойчивости уже поздно оценивать само здание, хотя и можно учесть существующие риски природного, техногенного и антропогенного характера.
В данном стандарте не рассматриваются вопросы безопасности труда, пожарной защиты и физической безопасности.
Причина отсутствия регламента пожарных систем и безопасности труда у Uptime Institute достаточно логична – слишком много внутренних регуляторных документов внутри каждой страны для создания единого стандарта. По физической безопасности, вероятно, и так есть значительное количество других, профильных регламентирующих стандартов.
Можно утверждать, что при выполнении требований первой части стандарта (Management & Operations) в полном объеме бóльшая часть документов, описанных в этой книге, будет у вас готова в той или иной степени автоматически.
Следует также отметить, что стандарт описан достаточно общими понятиями, и это затрудняет его внедрение без специальной подготовки и консультаций, получения примеров и наработок из внешних источников.