Регламент ежемесячных работ

Rate this post

Если Вы ожидаете прочесть, как нужно организовывать периодические работы, этот материал — несколько не то, что Вы искали. Я расскажу о реалиях, с которыми мне довелось столкнуться, и об опыте, полученном, при попытке завернуть все на путь систематизации и автоматизации.nnПрежде всего, приведу список работ, которые в итоге выполняются периодически:n

Просмотр логов систем, сетевого оборудования, системы резервного копирования.
Обновления операционных систем и программного обеспечения.
Анализ потребленных ресурсов (дисковое пространство, память и ЦПУ)
Тестовое развертывание резервных копий.
Просмотр состояния аппаратного обеспечения (в том числе непосредственно визуальный).
Смена паролей служебных учетных записей. Работы со слабыми паролями пользователей.
Отключение устаревших учетных записей пользователей, компьютеров и служб.
Анализ сетевого траффика.
Обновление сертификатов и списков отозванных сертификатов.

Для того чтобы детальнее поговорить о каждом виде работ, нужно немного описать среду, в которой все это работает. На самом деле сред было несколько, поэтому я возьму только те особенности, которые будут полезны для понимания в рамках сегодняшнего материала.nnИтак, в моей инфраструктуре есть до 10ти физических серверов, система виртуализации (до 50 виртуальных серверов), ПК с системами управления для технических служб (освещение, телевиденье и т.п.), системы хранения данных разного размера, некоторое количество коммутаторов и маршрутизаторов, брандмауэр, система мониторинга, ActiveDirectory. Подавляющее большинство серверов семейства Windows.n

Просмотр логов систем, сетевого оборудования, системы резервного копирования

Выполняется ежедневно. Ключевые сообщения (в том числе успешные) приходят уведомлением на почту. Так, например, отсутствие отчета о успешно созданных резервных копиях уже говорит о проблеме. Для просмотра логов используется принцип централизации, то есть настройка сбора логов всех систем в единое место. В моем случае такую роль выполняет система мониторинга, которая выдает предупреждения, в том числе на основе лога Windows, syslog, может читать текстовые файлы. В случае обнаружения проблемы, она с соответствующим приоритетом ставится в очередь задач системного администратора, по данному направлению. При необходимости ему даются рекомендации по устранению проблемы.n

Обновления операционных систем и программного обеспечения

Выполняется ежемесячно для каждого сервера или продукта. На практике обновление операционных систем выглядит следующим образом. Составляется перечень серверов, туда же включаются управляющие ПК. Для каждого сервера или ПК зарезервирован день обновления. Получается, что обновляются 2-3 сервера в день. В зависимости от задач сервера установка и последующая перезагрузка сервера выполняется в рабочее или нерабочее время (например, в перерыв). Исходя из этого, необходимо правильно подбирать «соседей», обновляющихся в один день. Также сервера, выполняющие однотипные задачи (например, узлы отказоустойчивого кластера) лучше обновлять с разницей во времени более одной недели. Таким образом, организовано некоторое тестирование обновлений, поскольку на создание тестовой среды в наших реалиях не хватает ни технических, ни человеческих ресурсов. Обновление ПО выполняется по мере выхода новых версий, извещение о наличии которых удобно получать по почте. При наличии обновления, задача становится в очередь задач системного администратора, по данному направлению.n

Анализ потребленных ресурсов (дисковое пространство, память и ЦПУ)

Выполняется ежемесячно. Не смотря на достаточно грамотное проектирование (даже с запасом), не единожды в моей практике доводилось решать проблемы излишнего потребления ресурсов. Помимо особенностей работы систем, причиной этой проблемы часто являлся человеческий фактор и излишнее доверие к системе мониторинга, которая не всегда успевает отреагировать на изменение ситуации до аварийного останова сервера. Так появилась ежемесячная задача, заключающаяся в просмотре отчетов по потребляемым ресурсам, анализе тенденций и нахождении потенциально критических точек. Отчеты можно получать из разных мест: система мониторинга, средства анализа на серверах или системах хранения данных.n

Тестовое развертывание резервных копий

Мысль о том, что наличие резервной копии еще не значит, что с нее можно успешно восстановить данные или сервис, далеко не нова. Однако, из моей практики можно сказать, что проверяют резервные копии данных только те администраторы, которые уже когда-то столкнулись с этой проблемой в лицо. В системе резервного копирования много различных объектов: виртуальные машины, базы данных, пользовательские ПК, почтовые ящики и базы, файловые структуры, и др. Учитывая то, что для каждого из объектов свои механизмы восстановления, тестировать резервные копии нужно обязательно! Значительно облегчают эту задачу пошаговые инструкции. Однажды написав такую, Вы обезопасите себя от такого способа потери информации, как склероз, и сможете сэкономить Ваше драгоценное рабочее время, посадив проверять работоспособность резервных копий практиканта-студента. Только учтите, что в подобном случае нужно помнить о безопасности и конфиденциальности серверов и информации, которая попадет в руки вашего практиканта. Задача выполняется ежемесячно или ежеквартально, в зависимости от количества объектов резервных копий, и загруженности системных администраторов.n

Просмотр состояния аппаратных ресурсов (в том числе непосредственно визуальный)

Не всегда имеется возможность добавить устройство в систему мониторинга, иногда среди 20ти настроек на 10ти серверах, пара настроек теряется, а иногда система по каким-то причинам не успела или не смогла отрапортоваться. В моем случае имеется журнал осмотра оборудования с перечнем того, на что стоит обратить внимание. Специалисты, посещающие святая святых, проходят по всем пунктам и отмечают дату контроля в журнале. Желательно проводить такой вид обслуживания серверов и другого оборудования хотя бы ежемесячно. Для контроля периодичности использую напоминания почтовой системы.n

Отключение устаревших учетных записей пользователей, компьютеров и служб

В этом вопросе все очень зависит от организации рабочих процессов на предприятии в целом. В нашей компании есть процессы приема и увольнения сотрудника, таким образом, на момент выхода сотрудника из офиса у него уже нет доступа к корпоративным ресурсам и данным. Однако раз в несколько месяцев я все же делаю проверку незаблокированных объектов Active Directory с достаточно давним временем входа в домен. Это позволяет поддерживать порядок среди рабочих и тестовых учетных записей, предотвращает проблемы при именовании ПК, и пр. Средства для контроля разработаны собственноручно.n

Смена паролей служебных учетных записей. Работы со слабыми паролями пользователей

Вид работ, связанный с безопасностью и защитой серверов и систем. Периодичность должна регулироваться политикой безопасности Вашего предприятия. В моем случае выполняется редко. Однако не стоит пренебрегать этим видом работ, особенно если большой процент Ваших пользователей — компьютерные лентяи или в отделе ИТ большая текучка. Помните, что для поддержания безопасности, системный администратор должен периодически пробовать взламывать свою систему. Это занимательно!n

Анализ сетевого траффика

Еще один вид занимательных работ, которые позволяют проверить корректность настроенных Вами ограничений, обнаружить возможные изъяны, или даже бреши в безопасности, оценить реальные нагрузки на каналы передачи данных. Регулярные проверки по этому направлению дают много пищи для размышлений. К тому же обычно руководство достаточно внезапно просит представить отчет, о посещаемых пользователями ресурсах Интернет. Наличие нужной информации в нужное время часто положительно сказывается на премии для отдела ИТ.n

Обновление сертификатов и CRL

Это последний вид работ, который выполняется достаточно редко (зависит от Ваших настроек), и по этому часто выпускается из поля контроля. Просроченный сертификат или список отозванных сертификатов может привести к временной недоступности сервисов или даже к остановке их работы, а автоматический перевыпуск по ряду причин не всегда возможен. К сожалению системы мониторинга, которые используются в моей инфраструктуре, также не контролируют этот момент. Все банально — я использую напоминания.nnВ завершение скажу, что, по моему мнению, периодические работы занятие неблагодарное, потому что их результативность видна только тогда, когда их вовремя не выполняют, вследствие чего обязательно что-то ломается. И самым оптимальным решением мне кажется максимальная автоматизация этих процессов и админ-ботаник-студент, а может быть даже аутсорсер на контроле работы систем. Поскольку инициативных ведущих администраторов (таких, как я и, надеюсь, Вы), руководство часто привлекает к решению сверхважных, архисрочных и суперзапутанных задач, постоянно забывая о том, что невыполнение повседневной рутинной работы медленно, но верно ведет к катастрофе.

Наша компания c 2010 года предоставляет полный спектр ИТ-услуг для бизнеса: проектирование, построение и поддержка облачных и наземных (on-premise) систем, администрирование серверов, сопровождение инфраструктуры в Azure и Amazon Web Services (AWS), внедрение DevOps-практик, обеспечение информационной безопасности, мониторинг и оптимизация производительности ИТ-решений. Мы помогаем организациям строить надежную и масштабируемую инфраструктуру, снижать риски и обеспечивать бесперебойную работу ключевых сервисов.