Ваша команда разработчиков и DevOps администраторов должна четко измерять свой ежедневный прогресс. В противном случае они не смогут знать, как обстоит ситуация в данный момент. Команды DevOps, у которых нет подобных данных, рискуют просто провалить свою задачу. Это означает не только отсутствие соглашений об уровне обслуживания (SLA), но и возникновение различных сервисных проблем, которые могут поставить под угрозу критически важные для бизнеса услуги.
Определение ключевых метрик DevOps
Важно знать, какие данные собирать и как их оценивать. Таким образом, профессионалы DevOps могут использовать проверенные метрики для отслеживания индивидуального и командного прогресса в течение длительного периода времени.
Теперь давайте рассмотрим четыре ключевых DevOps KPI:
Среднее время обнаружения (Mean Time to Detect, MTTD)
Среднее время обнаружения (MTTD) относится к среднему времени, которое требуется для обнаружения определенной проблемы. Оно измеряет период между началом сбоя системы, сервиса или любой другой, приносящей доход, деятельности компании и временем, за которое группа специалистов DevOps выявляет эту проблему.
Расчет MTTD может быть простым. Для этого команда DevOps изучает общее количество неполадок или сбоев, а также общее количество месяцев, недель, дней или часов, в течение которых система не работала. Поэтому, если команда DevOps обнаруживает три проблемы в течение четырех дней, MTTD составляет 0,75 дня, или среднее время, затрачиваемое командой на обнаружение каждой проблемы.
MTTD — отличный показатель для команд DevOps, которые хотят отслеживать эффективность своих инструментов и процессов управления различными сбоями. Если эти инструменты и процессы работают должным образом, команда DevOps не должна иметь проблем с поддержанием своего MTTD на низком уровне. И наоборот, если имеются некачественные инструменты и процессы управления неполадками, то специалисты могут изо всех сил пытаться быстро обнаружить и устранить сбои, но это лишь приведет к увеличению вероятности более тяжелых последствий.
Среднее время до отказа (Mean Time to Failure, MTTF)
Среднее время до отказа (MTTF), также называемое «временем безотказной работы» — это среднее время, в течение которого пораженная система может продолжать работу до того, как она выйдет из строя. Время начинается, когда возникает серьезный дефект в системе, и заканчивается, когда система полностью выходит из строя.
При определении сбоя, MTTF часто помогает команде разработчиков отслеживать состояние компонентов, используемых в критически важных системах. Поскольку эти системы всегда должны быть в рабочем состоянии, MTTF позволяет команде DevOps понять, как долго системные компоненты будут продолжать работать, прежде чем их потребуется заменить. В результате DevOps могут использовать MTTF для подготовки к сбоям системы.
Обычно данные MTTF собираются путем одновременного запуска сотен или тысяч компонентов системы в течение многих часов, дней или недель. Как только команды DevOps получат данные MTTF, они смогут понять надежность своих критически важных элементов системы. После чего, можно использовать эти данные, чтобы найти способы ограничить риск дорогостоящих, длительных сбоев.
Среднее время между отказами (Mean Time Between Failures, MTBF)
Среднее время между отказами (MTBF) является метрикой надежности и доступности. Оно используется для измерения способности системы или компонента выполнять свои требуемые функции в установленных условиях в течение определенного периода времени. Кроме того, MTBF позволяет команде разработчиков DevOps измерить степень работоспособности системы или ее компонента, когда они необходимы для использования.
Чтобы рассчитать MTBF, команде разработчиков DevOps необходимо посмотреть, сколько времени прошло между отказами системы во время повседневных операций. MTBF обычно измеряется в часах, и среднее значение MTBF для каждого оборудования может варьироваться. Например, MTBF жесткого диска может составлять 300 000 часов, в то время как MTBF для лампочки может составлять около 10000 часов
Команда DevOps должна стремиться поддерживать как можно более высокий MTBF независимо от системы или компонента, который измеряется. Имея данные MTBF, можно точно предсказать уровень надежности и доступности сервиса.
Если Вам нужны специалисты DevOps, которые будут удерживать все необходимые метрики на должном уровне, скорее обращайтесь в ITFB.
Среднее время для решения (Mean Time to Resolve, MTTR)
Среднее время для решения (MTTR) – это отрезок времени, которое требуется для восстановления работы поврежденной системы.
Например, давайте рассмотрим команду DevOps, которая сталкивается с четырьмя отключениями сети за одну неделю. Если этой команде требуется в общей сложности 60 минут для устранения всех четырех отключений, ее MTTR составляет 15 минут, то есть среднее время, необходимое для запуска одной неактивной сети.
MTTR является ценным показателем, поскольку позволяет DevOps находить способы сокращения или устранения простоев – которые являются дорогостоящей проблемой для организаций по всему миру. Недавнее исследование Information Technology Intelligence Consulting показало, что средняя стоимость времени простоя для организаций увеличивалась с каждым годом в период с 2008 по 2016 год. Кроме того, исследование показало, что 98 % организаций заявили, что один час простоя стоит им 100 000 долларов, а 33 процента отметили один час простоя суммой от 1 до 5 миллионов долларов.
В конечном итоге, чем ниже MTTR команды DevOps, тем лучше. Когда команда DevOps регулярно анализирует MTTR, она лучше подготавливает себя для выявления потенциальных проблем, которые могут привести к простою и своевременно устраняет их.