26 мая 2022 года,
Москва, СтартХаб                    
Схема проезда
 
Присоединяйтесь к группе IKS Data Center Conference     Поделиться с коллегами

Operational Sustainability: как это делается

Статьи

18.12.2014   Автор: Алексей СОЛОДОВНИКОВ, Александр МИРОНЕНКО

Operational Sustainability: как это делается

ИКС № 08-09 2014

Алексей СОЛОДОВНИКОВ  Александр МИРОНЕНКО

Известная в индустрии дата-центров организация Uptime Institute относительно недавно ввела новый вид сертификации ЦОДов – Tier Certification of Operational Sustainability – для обладателей сертификатов Uptime на проект и готовую площадку и на услугу аудита системы эксплуатации для всех остальных дата-центров.

Алексей СОЛОДОВНИКОВ, управляющий директор по России и СНГ, Uptime Institute Russia Александр МИРОНЕНКО, консультант, Uptime Institute Russia

Стандарт Uptime Institute на эксплуатационную устойчивость дата-центров Tier Standard: Operational Sustainability в отличие от первого стандарта Uptime на проектирование и строительство ЦОДов был разработан по просьбам профессионального сообщества владельцев и операторов дата-центров Uptime Institute Network и при их активном участии. Именно они, в том числе крупнейшие мировые игроки на рынке дата-центров, обкатывали на себе процедуру аудита системы эксплуатации, получая при этом, кстати, массу замечаний по поводу собственного умения эксплуатировать ЦОДы. Стандарт был официально опубликован в 2010 г., и за прошедшие четыре года сертификаты получили девять дата-центров. Может показаться, что это мало, однако мы так не считаем. Четыре года – не очень большой срок для того, чтобы целая отрасль осознала положения этого стандарта, обсудила их и сформировала понимание нужности (или ненужности) предложенной сертификации. В конце концов, относительно массовый характер сертификация проектов и готовых площадок (Tier Design и Tier Facility) приняла лишь через 13 лет после публикации соответствующего стандарта. Стоит еще учесть, что сама процедура сертификации занимает довольно много времени.

Во время первого посещения дата-центра эксперты Uptime проверяют соответствие работы службы эксплуатации дата-центра всем положениям стандарта Tier Standard: Operational Sustainability, фиксируют все недостатки и вручают их список владельцу ЦОДа (как показывает практика, замечания есть всегда, даже в очень серьезных дата-центрах). Претендент может начинать «работу над ошибками», а сколько она продлится, зависит от него самого (обычно на это уходит несколько месяцев). Когда он решает, что готов, то приглашает специалистов Uptime к себе в ЦОД во второй раз. По результатам этого посещения и выносится решение о сертификации и уровне сертификата – Gold, Silver или Bronze.

Человеческий фактор

Что же требует от претендентов на сертификат стандарт Operational Sustainability? Самый важный его раздел касается человеческого фактора, на который приходится большая часть сбоев в дата-центрах. Эксперты Uptime проверяют, хватает ли в ЦОДе обслуживающего персонала, не перерабатывают ли сотрудники службы эксплуатации (это повышает риск нештатных ситуаций). Информация берется из штатного расписания, графика дежурства смен. Кроме того, дата-центр обязан подтвердить квалификацию своего персонала: в личных делах в отделе кадров должны быть и копии дипломов, и сертификаты об обучении на разных курсах, и должностные инструкции.

Следующим по важности является раздел стандарта, описывающий эксплуатацию оборудования: все системы должны обслуживаться в соответствии с процедурами, определенными их производителями. Если отследить регулярность их исполнения в небольшом ЦОДе можно с помощью простых средств (Excel и пр.), то в больших ЦОДах при наличии огромного количества разнородного оборудования это возможно сделать только с помощью специального ПО MMS (Maintenance Management System), которое позволяет вносить в базу все данные об оборудовании со сроками регламентных работ, график их выполнения (работы должны быть спланированы так, чтобы не снижать уровень отказоустойчивости дата-центра), информацию о наличии необходимого для этого обслуживания ЗИПа, SLA с производителем оборудования, данные об отказах того или иного оборудования и т.п.

Специальный раздел стандарта посвящен тренингам персонала службы эксплуатации, поэтому руководство дата-центра должно быть готово предоставить информацию о том, какие тренинги и как регулярно проходят специалисты ЦОДа, их учебные программы и материалы. Демонстрации действий персонала в условиях учебной тревоги эксперты Uptime обычно не требуют, но могут попросить специалистов службы эксплуатации рассказать и показать, не нажимая кнопки, что они будут делать в той или иной ситуации.

Документируй все

Следующий важный раздел стандарта касается документирования всех процедур, четко определяющих действия персонала во всех возможных ситуациях, которые могут возникнуть в дата-центре, чтобы даже в отсутствие ключевого сотрудника, отвечающего, например, за ИБП, любой другой человек мог выполнить все необходимые операции для быстрой ликвидации аварийной ситуации. Составление такой документации требует огромной рутинной работы, потому что оборудования в ЦОДе очень много и ситуаций, которые могут возникнуть, тоже немало. Кроме того, она должна своевременно обновляться в соответствии с теми изменениями, которые постоянно происходят в ЦОДе (добавление и замена оборудования, изменение схем электропитания или холодоснабжения и т.п.). Uptime не предписывает жестко, в каком виде (бумажном или цифровом) и где именно должна храниться эта документация, но хорошей практикой является наличие отдельного хранилища, откуда ее нельзя выносить, а можно только изучать и копировать.

Отдельная проблема – это маркировка всего оборудования ЦОДа: на каждом щите и каждом рубильнике должно быть четкое уникальное обозначение, которое его однозначно идентифицирует. Кроме того, в помещениях дата-центра должны висеть схемы расположенных там систем и находиться инструкции к имеющемуся оборудованию. Важно также отслеживать ситуацию с изменением нагрузки дата-центра в процессе его эксплуатации, ведь в ЦОДе периодически устанавливают новое оборудование, модернизируют или убирают старое. Стандарт не требует наличия для этого полноценной DCIM-системы, но в дата-центре, как правило, должно быть ПО, с помощью которого можно осуществлять мониторинг нагрузки отдельных PDU, шкафов, зон машинного зала и т.д.

И последний по значению раздел – это условия размещения дата-центра (близость военных баз, вулканов, рек, аэропортов и прочих потенциально опасных объектов) и особенности конструкции его здания.

Полученные данные проверок, список которых отнюдь не ограничен перечисленными выше пунктами, эксперты Uptime с использованием специально разработанных весовых коэффициентов трансформируют в баллы, сумма которых и определяет уровень эксплуатационной устойчивости дата-центра.

Процедура аудита системы эксплуатации, которая обходится заказчикам существенно дешевле сертификации, проходит по тому же стандарту Tier Standard: Operational Sustainability за исключением оценки местоположения ЦОДа и конструктивных особенностей здания. Кроме того, аудит не предполагает возможности «исправления ошибок», и уже после первого визита комиссии экспертов заказчик получает подробный отчет, который официально называется Management and Operations (M&O) Stamp of Approval, где указаны все недочеты и рекомендации по их исправлению, которыми заказчик может воспользоваться, а может их и проигнорировать. Пока эта процедура не столь популярна, как сертификация (Uptime Institute все же исторически ассоциируется именно с последней), но цель у нее та же – повысить эксплуатационную устойчивость дата-центра.

СПОНСОРЫ И ПАРТНЕРЫ

Серебряный спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Спонсор
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки
Партнёр выставки