27 мая 2021 года,
Москва, Holiday Inn Moscow Sokolniki

схема проезда

 
Присоединяйтесь к группе IKS Data Center Conference   Поделиться с коллегами

Жизненный цикл дата-центра. В поисках рецептов вечной молодости.

Статьи

28.01.2014   Автор: Заурбек Алехин, Дмитрий Басистый

Жизненный цикл дата-центра. В поисках рецептов вечной молодости.

ИКС № 12 2013

ИКС № 01-02 2014

Авторы:

Заурбек АЛЕХИН, независимый консультант

Дмитрий БАСИСТЫЙ, независимый консультант 

Часть 1

В жизни дата-центра – как и всякого развивающегося организма – есть период оптимума, когда он уже функционирует в полную силу, но еще не показывает признаков упадка. Что представляет собой это состояние, от каких параметров оно зависит?

 Жизненный цикл изделия под названием «ЦОД»

Обратиться к теме, обозначенной в заголовке статьи, авторов побудило выстраданное мнение о том, что вопросам соответствия реального уровня эксплуатации ЦОДов ожиданиям потребителей их услуг уделяется недостаточно внимания. Немаловажно также, что в экспертном сообществе сейчас не ведется серьезной дискуссии о качестве услуг ЦОДа как производной от уровня технического состояния и о прогрессивности подходов к организации эксплуатации и обслуживания дата-центров.

В основе теории эксплуатации дата-центров – впрочем, как и любой другой системы или объекта – лежит понятие жизненного цикла. Впервые этот термин был употреблен по отношению к продукции, товарам и услугам и звучал как «жизненный цикл продукции». Но маркетинговое содержание понятия «жизненный цикл продукции» несколько отличается от того, что можно было бы применить к ЦОДу.

В общем случае жизненный цикл – это совокупность взаимосвязанных процессов последовательного изменения состояния объекта, от начала формирования исходных требований к нему до окончания его эксплуатации. Состояние объекта изменяется последовательно, и эта последовательность имеет четко выраженный стадийный характер. В жизненном цикле объекта применительно к ЦОДу можно выделить следующие стадии (рис. 1):  >идея; > проектирование; > cтроительство; > эксплуатация.

Стадию формирования и разработки идеи можно также назвать предпроектной подготовкой, в ходе которой решаются следующие задачи: формируются бизнес-потребности (требования к будущему ЦОДу), подготавливается технико-экономическое обоснование или бизнес-план, проводится предпроектное обследование и составляется техническое задание. На этой стадии формируются требования к функционированию объекта, которые должны быть реализованы в ходе проектирования и последующего строительства. Правильный, взвешенный и выверенный набор таких требований позднее не позволит спроектировать и реализовать решение, которое будет функционировать неэффективно в технологическом и экономическом смыслах. Таким образом, еще на предпроектной стадии закладываются основы «состояния наилучшего функционирования» (подробнее об этом речь пойдет ниже).

B a s e l i n e  –  э т а л о н н ы й н а б о р   п а р а м е т р о в

Понятие «baseline» применительно к информационным технологиям определено в ГОСТ Р ИСО/МЭК 20000-1-2010 «Информационная технология. Менеджмент услуг. Часть 1. Спецификация»:

Базовая линия (baseline) – это описание состояния услуги или отдельных элементов конфигурации в некоторый момент времени.

Очевидно, что при испытаниях инфраструктуры ЦОДа можно сформировать и зафиксировать эталонный набор параметров функционирования систем, который в идеальном случае должен отражать заложенную в проекте и реализованную в ходе строительства дата-центра эффективность.

Если созданный объект сразу после ввода в эксплуатацию работает на 100% проектной нагрузки, то скорее всего будет достаточно одного набора параметров на весь срок жизни объекта. Если же предполагается поэтапный ввод в эксплуатацию, то для каждого этапа потребуются собственные (обновляемые) эталонные наборы параметров функционирования систем ЦОДа. 

Следом за предпроектной подготовкой наступает важнейший этап формирования облика нового объекта – стадия проектирования, разработки технических решений. На этой стадии формируются технические решения и экономические характеристики будущего ЦОДа, составляются требования к организации службы эксплуатации, к операционной устойчивости объекта.

Технические решения в идеале должны соответствовать требованиям к проектированию эффективно функционирующего объекта. На деле не всегда удается избежать компромиссов при разработке технических решений – какими-то параметрами эффективности приходится пожертвовать, то ли в силу возникших финансовых ограничений, то ли в силу недостаточной квалификации и опыта проектировщика. Кроме технических решений компромиссы и недоработки могут повлиять и на организационные решения, определяющие порядок эксплуатации проектируемого объекта.

Подготовленные на стадии проектирования решения для будущего ЦОДа реализуются на стадии строительства, которая включает работы по поставке, монтажу, пусконаладке и испытаниям всех систем дата-центра.

Не секрет, что заложенные в проектной документации качество и эффективность систем при строительстве порой страдают из-за ошибок при монтаже, настройке и пуске. Причины возможны разные, хотя и вполне традиционные: квалификация подрядчиков, спешка из-за отставания по срокам и другие. И даже применяемые методы контроля качества – разного рода надзоры и аудиты, автономные испытания – не в силах полностью исключить потери качества и эффективности.

По успешном завершении испытаний ЦОД вводится в постоянную эксплуатацию, т. е. его жизненный цикл вступает в стадию эксплуатации, в ходе которой реализуется основное назначение дата-центра как объекта инфраструктуры организации.

Проведение испытаний – особенная процедура, переоценить ее влияние на последующую судьбу построенного объекта невозможно. И дело не в том, что после успешных испытаний исполнитель может закрыть контракт и получить вознаграждение, а в распоряжение заказчика поступает долгожданный объект корпоративной инфраструктуры. Главное в том, что эта процедура, процедура испытаний, должна задать базовый набор параметров функционирования ЦОДа. Этот базовый набор (baseline) станет эталоном работы дата-центра на весь период его эксплуатации.

Если по каким-либо причинам ЦОД перестал соответствовать требованиям владельца – то ли оборудование систем выработало свой ресурс, то ли морально и технически устарело, а может быть, просто изменились цели бизнеса, – неизбежен переход объекта в состояние, завершающее его жизненный цикл: это либо утилизация (вывод из эксплуатации), либо модернизация. В последнем случае новый, модернизированный объект будет заново проходить весь описанный выше жизненный цикл: идея (исследование) – проектирование – строительство – эксплуатация.

В жизненном цикле ЦОДа можно рассматривать технологическую и экономическую сущности (рис. 2).

Технологическая сущность появляется у дата-центра на стадиях проектирования и строительства (II и III на рис. 2), развивается на стадии эксплуатации (IV), достигает своего пика к окончанию срока службы и по завершении этого срока показывает резкое падение.

С финансовой точки зрения жизненный цикл ЦОДа характеризуется ростом капитальных затрат, пик которых приходится на первую половину стадии строительства, с выходом в равновесную точку на том этапе эксплуатации, когда первоначальные затраты окупаются и ЦОД начинает приносить прибыль. По достижении заданного срока эксплуатации ЦОДа стоимость поддержания объекта в надлежащем состоянии начинает превышать извлекаемую из него прибыль, т.е. появляются убытки.

Понятия «прибыль» и «убытки» применимы не только к коммерческим дата-центрам. Для корпоративных ЦОДов эти понятия можно трансформировать в аналоги – «эффективная работа» и «неэффективная работа».

Состояние наилучшего функционирования.

 Термин и его значение

Особое внимание уделим одному из этапов жизненного цикла ЦОДа – стадии (или периоду) эксплуатации. Очевидно, что переходы между стадиями не происходят мгновенно: они требуют времени, ресурсов, усилий, и переход в состояние «эксплуатация» не является исключением.

На самом деле нас будет интересовать лишь часть общего периода эксплуатации, которую можно назвать состоянием наилучшего функционирования (СНФ). Однозначное определение ему дать сложно, придется отталкиваться от описаний и пояснений.

Итак, говоря «состояние наилучшего функционирования», мы имеем в виду такой период в жизненном цикле ЦОДа, когда оценка некоторого аспекта (набора качественных параметров) его функционирования является локально оптимальной для оценивающих субъектов. И данные субъекты заинтересованы в том, чтобы такое состояние продолжалось как можно дольше.

Например, если мы оцениваем объект с точки зрения портфельного инвестора, то СНФ будет эквивалентно периоду максимальной доходности. А с точки зрения клиентов – это период наилучшего соотношения цена/качество. На возможных точках зрения мы еще остановимся подробнее.

Динамика развития и состояния объекта

Уже из самого названия следует, что период СНФ наступает через некоторое время после сдачи объекта. Это связано, например, с тем, что выход ЦОДа на полную мощность почти всегда происходит постепенно; имеются и иные причины.

Если существование объекта не нарушается периодическими «интервенциями», оказывающими воздействие на параметры, картина будет такой, как на рис. 3. С другой стороны, в случае какого-то вмешательства возможны варианты, например, показанные на рис. 4 и 5.

Стоит отметить, что и эталонное значение для самих оценочных параметров тоже может претерпевать изменения, «портя» картинку (рис. 6).

Из приведенных схем очевидно, что в предложенной постановке вопроса простор для разного рода рассуждений, исследований, спекуляций практически ничем не ограничен.

 

     http://www.iksmedia.ru/data/921/058/1239/basist_6.jpg

Оценка состояния и набор параметров

Рациональное зерно в приведенных выше рассуждениях, безусловно, присутствует, но вот добраться до него с такого уровня абстракции совсем не просто. Остановимся более подробно на возможных аспектах оценки состояния ЦОДа.

Практика показывает, что основными заинтересованными в оценке состояния ЦОДа сторонами являются: 

  • владельцы;
  • клиенты;
  • менеджмент;
  • персонал.

Далеко не всегда все эти группы можно однозначно выделить, часто представители одной группы одновременно входят в другие – в общем, всё, как обычно бывает в жизни. Тем не менее для целей анализа будем предполагать, что группы являются условно изолированными и непересекающимися.

Есть еще множество иных, не основных, групп: конкуренты, поставщики, местная власть, регулирующие органы, местные жители. Но будем считать, что их влияние на эксплуатацию ЦОДа и его состояние не столь значительно, как влияние основных групп.

Дата-центр – это сложный, комплексный объект. И когда мы говорим об идеальном состоянии, оно конечно же оценивается в различных сферах. Так, есть технологическая составляющая, т. е. установленное инженерно-техническое оборудование и построенные на его основе системы. Можно обсуждать финансовую сторону, когда состояние дата-центра рассматривается и оценивается с точки зрения финансовых параметров и нормативов. Говоря о производственной стороне, следует преимущественно обращать внимание на то, насколько эффективно организована деятельность дата-центра как хозяйствующего субъекта, ориентированного на предоставление определенного набора услуг. Наконец, обсуждая организационную сторону, нужно уделять максимум внимания общей модели управления и отдельным ее компонентам, включая модель стратегического управления и операционную модель.

П р и м е р   о п и с а н и я   с о с т о я н и я  н а и л у ч ш е г о   ф у н к ц и о н и р о в а н и я

Состояние наилучшего функционирования описывается набором параметров, характеризующих это состояние, и допустимыми интервалами отклонения их значений, при которых сохраняется зафиксированное состояние. В качестве иллюстрации приведем пример описания СНФ с точки зрения владельца бизнеса.

• Возможности размещения оборудования отвечают следующим требованиям: площади в машинных залах – 500 кв. м ± 10%; мощности электроснабжения – 2500 кВА; мощности и параметры системы охлаждения соответствуют тепловыделению нагрузки и не ограничивают размещение.

• Наличие резервов по основным мощностным параметрам – не менее 20%.

• Безотказность: отказы случаются относительно редко (не чаще одного раза в год), не приводят к серьезным простоям (максимальное время простоя – до 4 ч), устраняются без закупки оборудования (возможно, требуется пополнение ЗИП) и незаметны для потребителей.

• Экономическая эффективность: доходы и прибыль на вложенный капитал не ниже средних по рынку значений для аналогичного сегмента (20% годовых).

Остальные параметры для владельца бизнеса в нашем примере не являются значимыми, поэтому они не упоминаются.

Это связано с тем, что дата-центр одновременно является: 

  •  набором технологического оборудования, сгруппированного в инфраструктурные системы;

  •  хозяйствующим субъектом (явно или неявно), нацеленным на предоставление набора услуг;

  •  работодателем для персонала;

  •  объектом собственности;

  •  структурой для управления со стороны менеджмента.

В реальности, несмотря на практически бесконечный перечень вариантов, в большинстве случаев интерес будут представлять именно перечисленные выше аспекты оценки (возможно, с некоторой дополнительной детализацией). При этом целевые значения параметров для разных групп могут – и наверняка будут – выглядеть порой противоречиво.

Основными параметрами «наилучшего» состояния ЦОДа с точки зрения той или иной заинтересованной стороны могут считаться следующие.

  • Возможности размещения оборудования, их соответствие текущим потребностям (площади машинных залов, подведенные электрические мощности, мощности и возможности системы охлаждения).

  • Наличие и объемы резервов по основным мощностным параметрам – при этом желательно, чтобы резервы не простаивали, а были доступны для подключения за короткое время (при условии расходования дополнительных средств).

  • Безотказность – отказы происходят относительно редко (не более одного-двух раз в год), не приводят к серьезным простоям (например, сбой в подаче электропитания компенсируется возможностями СБЭП), устраняются относительно легко (без дополнительных значимых затрат) и в идеале не заметны для потребителей (клиентов).

  • Обслуживаемость – установленное оборудование может адекватно эксплуатироваться (обслуживаться и ремонтироваться), доступны и достаточны комплекты ЗИП и расходные материалы, доступны специалисты и есть внешние возможности их подготовки.

> Управляемость – имеется работающая модель эксплуатации, укомплектован в достаточном объеме свой штат, доступны внешние исполнители (необходимые внешние услуги присутствуют на рынке и адекватны по стоимости).

> Экономическая эффективность – для владельцев это доходы и прибыль на вложенный капитал не ниже среднего по рынку значения для аналогичного сегмента. Для клиентов – стоимость услуг ЦОДа не выше, чем аналогичных по рынку (при сравнимом качестве). Для персонала – условия труда и его оплата не хуже, чем в среднем по рынку. Для менеджмента это означает, что бюджет обеспечивает достижение поставленных целевых параметров функционирования ЦОДа.

Сделаем еще одно замечание. Несмотря на то что каждый из названных выше параметров реально существует, имеет собственную важность и значимость, учесть и проанализировать всё и сразу – задача в короткие сроки невыполнимая. Поэтому в статье мы будем преимущественно рассматривать наиболее изученную и понятную для большинства специалистов сторону – технологическую. Будучи наиболее сложной и в то же время основополагающей, «материальной» составляющей объекта, она одновременно и наиболее уязвима с точки зрения сохранения ее состояния на протяжении длительного времени.

Вместе с тем необходимо отметить, что при рассмот-рении технологических аспектов эксплуатации ЦОДа важными, определяющими параметрами функционирования являются показатели работы отдельных инженерных систем – электроснабжения, охлаждения и других.

Фиксация (определение) значений параметров отдельных инженерных систем ЦОДа на этапе комплексных или приемочных испытаний позволяет в последующем вести целенаправленный их мониторинг, строя при этом зависимости, которые позволят превентивно (по возможности) определять вход систем в состояние деградации их параметров, что может отразиться – и отражается – на «состоянии наилучшего функционирования».

Часть 2

Сценарии развития и причины деградации параметров ЦОДа

Итак, спустя некоторое время после завершения строительства, при условии наличия доброй воли и желания заинтересованных сторон, ЦОД оказывается в состоянии наилучшего функционирования. В некотором смысле это, как мы уже говорили ранее, идеальное состояние. И как минимум одна из заинтересованных сторон хотела бы, чтобы данное состояние сохранялось как можно дольше. Однако практика показывает, что в общем случае такое счастье невозможно без дополнительных усилий.

Износ оборудования

Для начала поймем, чем именно вызвана постоянная тенденция к ухудшению состояния объекта. Поскольку речь идет о технологической сфере, основная причина ухудшения состояния – это износ оборудования.

Известно, что любое оборудование имеет некоторый ресурс полезного использования, после исчерпания которого производитель не гарантирует не только работоспособность, но часто и безопасность его применения. Соответственно, после того как ресурс оборудования будет исчерпан, ЦОД однозначно станет неработоспособным.

В действительности ситуация несколько хуже, поскольку СНФ предполагает не просто принципиальную работоспособность объекта, но и сохранение параметров функционирования в определенных пределах. Это означает, что предельно допустимый для сохранения СНФ износ оборудования в ЦОДе наступит намного раньше, чем будет полностью выработан ресурс этого оборудования.

Какие меры можно предпринять, чтобы удержать объект на заданном уровне СНФ? Это восстановление потребительских свойств оборудования (частичный или капитальный ремонт) либо замена оборудования – на аналогичное или более современное.

Если проводить эти мероприятия для определенной технологической системы экономически нецелесо-образно, придется зафиксировать невозможность удержания ЦОДа в заданных пределах значений параметров СНФ и готовиться к завершающей, самой печальной стадии его жизненного цикла – утилизации и выводу из эксплуатации.

Перегрузка мощностей

Традиционная причина ухудшения состояния ЦОДа – нарушение работоспособности отдельных его систем из-за регулярной их перегрузки. Действительно, велик соблазн установить дополнительную ИТ-нагрузку без модернизации инженерных систем, а порой – даже без должной перенастройки всего, что обеспечивает надежное функционирование целевых ИТ-систем. Особенно велик такой соблазн у владельцев и менеджеров дата-центров, не имеющих непосредственного отношения к эксплуатации, но наделенных распорядительными функциями в иерархии управления организацией. В экстремальных случаях это приводит к авариям и выявляется довольно быстро.

Однако далеко не всегда это так, поскольку критичные системы ЦОДа, как правило, имеют некоторый запас прочности и способны выдерживать повышенную нагрузку достаточно долго. Поэтому внешне все будет вполне благополучно, инициаторы сверхнагрузки будут бодро рапортовать о своей суперэффективной инициативе, а возражавшие (как правило, из команды эксплуатации ЦОДа) – с горечью ждать того момента, когда их аргументы в пользу необходимости соблюдать проектные ограничения найдут подтверждение в виде конкретных отказов и сбоев.

А вот итог, скорее всего, будет плачевным, поскольку износ оборудования систем ЦОДа при экстремальной нагрузке будет в разы превышать плановый, и через некоторое время выяснится, что дата-центр уже не может функционировать не только с повышенной, но и с нормальной, рабочей нагрузкой… Понятно, что говорить о «состоянии наилучшего функционирования» уже не придется, оно однозначно останется в прошлом.

Мораль: фиксация параметров, безопасных для функционирования систем ЦОДа, во время их комплексных испытаний – хорошая практика. Такие параметры должны стать неотъемлемой частью паспорта объекта – основного эксплуатационного документа дата-центра.

Деградация уровня обслуживания

Постепенное снижение значений технических параметров ЦОДа за счет той или иной формы износа оборудования – вещь понятная и принимаемая сообществом в целом. В то же время существует фактор, способный оказывать не меньшее влияние на оценку состояния ЦОДа, который по ряду своих характеристик даже похож на упомянутые выше, но имеет принципиально иную природу.

Помимо работы оборудования качественное функционирование ЦОДа существенно зависит от того, насколько хорошо исполняет свои обязанности персонал службы эксплуатации. Не секрет, что пока рассуждения о полностью автоматически функционирующих ЦОДах в нашей стране воспринимаются скорее как фантастика (пусть и научная). Иначе говоря, уже многие понимают, что в принципе такое возможно, но вот в то, что это реализуемо в условиях отечественной действительности, веры пока не много. Поэтому персонал остается таким же необходимым и обязательным элементом дата-центра, как система холодоснабжения или любая другая инженерная система ЦОДа.

По понятным соображениям разговоры об «износе» такого типа «оборудования» выглядят несколько странными. Однако оказывается, что похожие (с некоторыми допущениями) процессы происходят и с людьми. При этом «износу» подвержены не собственно ресурсы (вопросы важности физического здоровья и безопасности работы персонала нет даже смысла обсуждать, это аксиома), а процессы и процедуры, этим персоналом исполняемые. Мы имеем в виду постепенно развивающееся в эксплуатационной команде ЦОДа снижение уровня ответственности, проявление разного рода халатности при исполнении служебных обязанностей. Конечно, при надлежащем управлении обслуживанием систем ЦОДа такие проявления редки, но в нашей «традиционной» модели эксплуатации дата-центров эти отклонения встречаются повсеместно.

Ну а к чему могут привести некачественно выполненная настройка, ошибка при переключении оборудования, невнимательность при контроле рабочих параметров, каждый вполне может себе представить: деградация параметров важных инженерных систем, отказы и сбои в работе оборудования, сбои в работе целевых ИТ-систем и т.д., и т.п.

Изменение внешних факторов

Наконец, стоит обратить внимание и еще на одну группу причин, способных вывести объект за пределы состояния наилучшего функционирования. Речь идет о внешнем воздействии.

Мы не будем здесь говорить о разного рода катаклизмах, включая природные, техногенные, политические: они известны, давно отнесены к форс-мажорным обстоятельствам, активно исследуются. Но внешнее влияние не ограничивается только этими событиями. Не менее разрушительными могут оказаться, например, изменения в законодательстве по охране природы, в системе налогообложения, в конкурентной среде… Все это способно отрицательно повлиять на оценку состояния объекта. Например, изменение требований по допустимому уровню шума может привести к тому, что невозможно будет использовать уже установленные системы холодоснабжения и системы гарантированного электроснабжения, а значит, объект не сможет функционировать в проектных режимах.

Что дальше?

Мы упомянули лишь некоторые (на наш взгляд – основные) факторы, влияющие на состояние объекта и оценку его соответствия СНФ. Хотя в действительности их намного больше, методы оценки и реагирования на них будут аналогичными. Приведенные примеры демонстрируют как естественную тенденцию к деградации объекта и выходу его из состояния наилучшего функционирования, так и разнородность причин, обусловливающих эту тенденцию. Далее мы обсудим возможные способы ее преодоления или, по крайней мере, существенного замедления процесса деградации.

Как обеспечить дата-центру вечную молодость?

«Заморозить» СНФ невозможно…

Несмотря на огромные усилия, ученым пока не удалось придумать, как обеспечить человеку вечную молодость, – и это в условиях практически безграничного, с лихвой обеспеченного деньгами спроса. Надеемся, что только пока… Но тщетность усилий наталкивает на мысль о принципиальной невозможности решения проблемы.

Ситуация в мире дата-центров в целом такая же. Любая техника ломается, и со временем частота отказов оборудования ЦОДа возрастает. Из-за большого числа разнообразных зависимостей и влияний «заморозить» объект в состоянии наилучшего функционирования по объективным причинам не представляется возможным.

Сложно определить, что окажется в той или иной ситуации решающим фактором, вызвавшим изменение параметра и выход его за границы допустимых значений. Это могут быть особенности конфигурации нагрузки, изменение климата, особые требования клиентов, неисправность какого-либо блока – да что угодно. Даже учесть все варианты воздействий невозможно, а уж предвидеть их и предусмотреть меры противодействия – тем более.

Но, может быть, попробовать?

Таким образом, приходится смириться с тем, что будучи предоставлен сам себе, без должного внимания и ухода, ЦОД будет постепенно деградировать и через некоторое время выйдет из состояния наилучшего функционирования. В то же время мы уже говорили, что есть силы, заинтересованные в том, чтобы объект находился в этом состоянии как можно дольше. К счастью, существуют различные методы, позволяющие продлить период нахождения в СНФ. Остановимся на некоторых из них.

Надежное устранение отказов. Часто при оценке качества функционирования ЦОДа одним из значимых факторов является наличие отказов инженерных систем и их влияние на работоспособность ИТ-нагрузки. Как известно, современные дата-центры проектируются таким образом, чтобы кратковременный отказ того или иного оборудования инженерной инфраструктуры не приводил к отрицательным последствиям для ИТ-оборудования, а в идеале – даже не был заметен.

Понятно, что это возможно только при условии, что появившийся отказ будет быстро и эффективно устранен. Именно правильная организация устранения отказов является одним из важнейших способов повышения качества функционирования ЦОДа. Существует ряд стандартных процедур, которые должны быть выполнены в случае отказа: выявление отказа, его идентификация, аварийное переключение нагрузки, обнаружение сбойного компонента, определение способа устранения отказа, выполнение работ по устранению отказа, полное восстановление нормального функционирования инженерных систем, переключение нагрузки в штатное состояние.

Для большей надежности в устранении отказов одновременно с перечисленными операционными процедурами должен быть организован контроль за их исполнением. В совокупности умение быстро и эффективно реализовать перечисленные мероприятия позволяет существенно уменьшить время устранения отказа, тем самым сделав его практически незаметным для потребителей услуг ЦОДа (если только количество отказов не будет слишком велико и ресурсов службы эксплуатации хватит для их устранения).

Концепция ТОиР по плану и по текущему состоянию. ГОСТ 18322-78 «Система технического обслуживания и ремонта техники. Термины и определения» дает следующее определение для системы технического обслуживания и ремонта (ТОиР): «совокупность взаимосвязанных средств, документации технического обслуживания и ремонта и исполнителей, необходимых для поддержания и восстановления качества изделий, входящих в эту систему».

Помимо умения быстро устранять отказы в реальности очень важно, чтобы количество отказов не было слишком велико. Основными причинами отказов оборудования являются брак и износ. Как правило, пока оборудование относительно новое, б'ольшая часть отказов связана с браком. По понятным соображениям со временем доля дефектов в причинах отказов падает, а доля износа – растет. Для того чтобы износ систем не превышал допустимые пределы, применяются методы и процедуры технического обслуживания и ремонта. В их основе лежат оценки нормативов износа оборудования в зависимости от нагрузки и иных условий функционирования. При достижении некоторого критичного коэффициента износа проводится плановый ремонт оборудования, с заменой изношенных элементов. Кроме того, для увеличения срока работы периодически проводится обслуживание оборудования, которое включает, в числе прочего, контроль его состояния, регламентные регулировки и настройки, замену расходуемых материалов и т.п.

В том случае, если организация способна эффективно оценивать реальное состояние и уровень износа отдельного конкретного оборудования, для повышения эффективности применяют подход, называемый «ремонт по текущему состоянию»: ремонт проводится исходя не из плановых нормативов, а из фактического состояния оборудования.

После проведения ремонта ресурс оборудования будет восстановлен, и вероятность его отказа будет почти такой же, как у нового оборудования. «Почти» – потому что в ходе ремонта обычно заменяют только отдельные детали, а не оборудование в целом, соответственно, оставшиеся старые детали все же имеют некоторый износ, в отличие от полностью нового оборудования. Таким образом удается поддерживать количество отказов в допустимых пределах.

Разработка и внедрение операционной модели эксплуатации. Своевременное устранение отказов, а также регулярное обслуживание и ремонт оборудования, безусловно, наиболее важны для обеспечения состояния наилучшего функционирования технологической составляющей дата-центра. Но существуют и иные значимые компоненты, в том числе качественное ресурсное обеспечение, наличие документации и ее полнота, адекватное финансирование и т.д.

Если абстрагироваться от частностей, получается, что мы говорим об организации обслуживания ЦОДа в целом или, в принятых сейчас терминах, об операционной модели обслуживания дата-центра. Эта тема в последнее время все активнее обсуждается в кругах специалистов отрасли ЦОДов. Ряд известных компаний даже предложили собственные рекомендации: чему стоит уделить при этом первоочередное внимание, как правильно всё организовать и как убедиться, что всё построено надлежащим образом. В рамках нашей статьи, к сожалению, нет возможности проанализировать этот подход*, позволяющий продлить состояние наилучшего функционирования.

Нужно бежать со всех ног, чтобы только оставаться на месте

…А чтобы куда-то попасть, надо бежать в два раза быстрее – это философское утверждение Черной королевы из известного произведения Льюиса Кэрролла можно перенести и на основную стадию жизненного цикла ЦОДа, стадию эксплуатации. Деградация ЦОДа и выход его из состояния наилучшего функционирования (в том виде, как оно определено в нашей статье) неизбежны, если не прикладывать усилия для компенсации потерь, неизбежно возникающих у любого дата-центра: «нужно бежать». В этом случае удастся добиться стабильного соответствия параметров функционирования ЦОДа заданным их значениям на протяжении требуемого времени. Если же в ходе эксплуатации ЦОДа понадобится достичь новых, более высоких показателей – иного состояния наилучшего функционирования, то просто «бежать» уже будет недостаточно: «надо бежать в два раза быстрее».

Итак, основные выводы:

  • Состояние наилучшего функционирования дата-центра не является стабильным, постепенно происходит деградация отдельных показателей, что в итоге приводит к выходу дата-центра из СНФ.
  • Полностью избежать выхода из СНФ не удается, но вот оттянуть этот момент – возможно. Но достигается это только путем регулярного проведения различных рекомендованных мероприятий и, соответственно, определенных материальных затрат.
  • Насколько долго удастся «заморозить» СНФ, зависит от полноты принятых мер и качества их исполнения. При определенных условиях речь может – теоретически – идти о десятках лет.  икс 

________________

* Подробнее об этом можно прочитать, например, в следующих статьях и материалах:
1. В. Woolley, M. Hagan. Tiered Infrastructure Maintenance Standards (TIMS) for Mission-Critical Environments Sustainability, http://www.leetechnologies.com/index.php/resources-and-insights/whitepap....
2. Uptime Institute LLC. Data Center Site Infrastructure Tier Standard: Operational Sustainability, http://www.uptimeinstitute.com/publications.
3. Алехин, Д. Басистый. Классификация подходов к организации эксплуатации инженерной инфраструктуры ЦОД. ЦОДы.РФ, №5’2013.

Когда достигается состояние наилучшего функционирования

Как мы уже упоминали в первой части статьи, это происходит далеко не сразу – как правило, после наступления следующих событий:

  • Объект построен
  • Укомплектована персоналом служба эксплуатации
  • Определена модель обслуживания
  • Определены основные рабочие процессы
  • Проведено развертывание ИТ-нагрузки
  • Получен опыт устранения отказов
  • Проведена отладка рабочих процессов
  • Проведены модернизация/улучшение/уточнение модели обслуживания
  • Достигнуты оптимальные режимы работы оборудо-вания.
  • Произошла незначительная деградация оборудования (стали появляться отказы)

Общая продолжительность периода перехода в СНФ, по нашей оценке, может составить 1–2 года с момента фактического завершения строительства дата-центра.

Спонсоры
Серебряный спонсор
Спонсор
Спонсор