Если мы говорим о том, что разработка может быть запланирована, мы сделали большой план и  при чем быстро. То в условиях того, как вы продаете системное администрирование – это несколько сложнее.

Представьте себе работу админа. Сложно представить, что у админа план будет расписан. На этой неделе случится несколько аварий и они произойдут одна за другой. О том, как мы пытаемся с этим жить, я и хочу рассказать.

Мы занимаемся оперативной техподдержкой веб-сайтов. Это значит, если у нас есть какой-то сайт на поддержке и с ним происходит что-то плохое, совсем плохое, сервер взломался и выключился сайт, сайт упал, время ответа страниц стало очень долгим, заканчивается место на дисках. Что угодно.

В течении 15 минут мы должны прийти, и если мы можем, мы должны это починить. Если мы знаем, с кем связаться, не работает хостинг – связаться с хостингом. Если это проблема с выкладкой кода, связаться с разработчиками, клиентами и вместе попытаться ее решить. С

Сейчас у нас на поддержке много сайтов. Есть небольшие интернет-магазины, есть большие интернет-магазины, есть крупные проекты.  В чем главная проблема? На любую аварию, допустим, реагируют в течении 15 минут, 24/7, 7 дней в неделю.

По сути, что такое авария? Авария – это может в данный момент закончиться место на диске, может показать, что скоро закончится. Если мы говорим, что среагируем и начнем что-то делать за 15 минут – это означает, что дежурный администратор должен это сделать за 7-8 минут. Он сидит, ему прилетают оповещения. Он видит графики. Он может принять  или не принять заявку. В случае необходимости начать чинить.

Сейчас у нас таких оповещений от 100 до 500 за час на одного человека. Днем – очень много. Ночью их бывает меньше. Интернет-магазины, к примеру, любят начать черную пятницу раньше на один день. 3 года назад они это сделали в пятницу, 2 года назад – в четверг. В этот год – в среду. И каждый год они говорят, что больше не будут участвовать.

У нас один клиент заказал рассылку на 300 тысяч человек, через пол часа мы сказали, что вообще никаких рассылок делать не будем. Основная поддержка у нас идет через чаты. Ни система, ни клиент должны сказать, что что-то упало, а мы должны об этом сказать, и мы должны оповестить его об этом.

Это выглядит примерно так: может быть клиент сказал, что у нас один из менеджеров случайно поменял тип у всех товаров, пожалуйста, восстановите базу данных немедленно. А может быть мы увидели, что резко повысился рост нагрузки и пишем клиенту, говорим, что видим рост нагрузки, делали ли вы что-то на серверах. Если делали, тогда мы будем знать, что это за нагрузка. В таких чатах у нас получается до 50 сообщений каждые 10 минут. Админы дежурные сидят в чатах и разговаривают с людьми. 50 сообщений  за 10 минут.  До 8 задач ставится через чат одновременно.

В чем смысл? Если попросить клиента написать задачу тикете, клиент будет пытаться сформулировать ее. Сделает это своеобразно и потом большое количество времени уйдет на то, чтобы попытаться формулировать эту задачу правильно.

Если клиент начинает общение в чате, можно это объяснить немедленно, а потом уже перевести им, объяснить немного проще. Существует небольшая проблема, поскольку задача в чате не выглядит как цельная задача для администратора. Таких задач происходит порядком 5 за час. То есть, это может быть – создать в меню конфигурацию на сервере, поставить софт и т.д.

Соответственно у нас есть проблемы. Сейчас 90 чатов активных каждый день, при этом посторонних очень много. У нас много задач, если люди делают что-то через чаты, и мы никак за этим не следим, их можно просто потерять. Оповещений очень много, и на них нужно реагировать вовремя.

По сути, это наша основная услуга. Если мы не среагируем, то мы нарушим обязательство с нашей стороны. А админ может пропустить, как за этим уследить. Начали мы с простого. Если мы делаем поддержку через чат, то главная проблема заключается в том, что чат – это такая штука. По сути, создатели любого мессенджера не предполагали, что кто-то может попытаться им воспользоваться для такой работы.

Если у вас есть телеграмм или скайп, никакой функциональности нет с тем, чтобы осуществлять контроль в чате. У нас есть внутренняя система. Наш сотрудник должен ответить в чате до 15 минут со времени вопроса клиента. Представьте, что у вас есть мессенджер, где вам красным подсвечивается, что вы до сих пор не ответили. Такого нет. Любые обсуждения в чате могут потеряться. Нужно что-то с этим делать.

Обсудили это один день, потом второй. Нужно собрать эти данные вместе. Ну и собственно, когда вы поставили и обсудили задачу. Ее очень просто обсудить в мессенджере, но после того, как вы это сделали, ее нужно как-то перенести в трекер, а если задач у нас 5 штук в час, мы можем случайно не перенести задачу в трекер и ее потерять, а потом нам скажут: «Вот вы знаете? Мы вас дня три назад просили, надо с этим что-то сделать». Поскольку со скайпом все становилось все хуже и хуже, со временем все наши клиеты начали переходить на чаты в телеграме.

Мы посмотрели на него и оказалось, что у телеграма есть одна очень крутая штука. У него есть клиент, который можно бить одновременно на Винду, Линукс. А поскольку у нас была одна довольно большая экспертиза про то, как разрабатывать, мы решили, что в принципе, мы можем попробовать взять свой телеграм и переписать его для себя так, чтобы это решило наши проблемы.

Какие есть проблемы с мессенджером по сути? Никто не думает, что у человека может быть 80 чатов одновременно. Любой мессенджер показывает достаточно малое количество чатов. Не то, которое нам нужно для регулярной нашей работы. Чаты перепрыгивают постоянно. Если вы сидите в чатах поддержки и тебе пишут часто, то постоянно меняется очередность чатов. Ты можешь нажать не на тот, переключиться не в тот. Непонятно, где мы не успели ответить или где мы уже отвечали и где приближается время, что мы должны ответить. Что мы стали делать?

Первое, что мы стали делать:

  • уменьшили высоту каждого чата в отдельности.
  • стали отслеживать то, где последний написал клиент, стали подсвечивать чаты, где такое нужно
  • далее начали выбивать чаты по необходимости ответа
  • добавили функцию «отметить все чаты как прочитанные»

Есть еще полезная штука, если ты сегодня не на дежурстве, а на задачах, ты можешь выключить из телеграмма вообще чаты с техподдержкой, а потом ребята-программисты попросили сделать галочку «  не могу писать в чаты администраторам». Потому что иногда, когда ты приходишь и пытаешься что-то порешать, менеджер нажимает эту галочку и я больше возможности такой не имею.

Постановка задач

Клиенты – самое важное. У нас очень много клиентов не айтишных. Это может владелец интернет-магазина, директор и у него ест оффлайновый магазин. Он платит за аренду магазина, сигнализацию, он где-то когда-то нанял студию, она предоставляет ему хостинг и он хочет какую-то защиту.

Вот как он взял охранное агентство, так он взял и нас для веб сайта. Он может сказать: «Вы знаете, у меня ничего не работает»! Кроме того, если даже мы ставим задачи через чат, некоторые настолько горят, что нет возможности задачу описать, создать тикет, написать администратору. Вот если приходит человек и говорит: «Вы знаете, взломали нашу базу, восстановите ее срочно!»

Ты же не будешь говорить, что сначала оформишь это в виде задач и дальше мы возьмемся за это и будем держать в курсе. Нет. Ты должен быстро что-то решать. Задачи должны как-то отслеживаться. Собственно, сам процесс переноса задачи с чата- довольно сложная задача. Потому что даже в процессе диалога больше понимаешь, что происходит. Ты в итоге можешь скопипастить что-то в тикет, забыть что это все значит.

Дальше переходим к сложной части. Мы решили технические проблемы, у нас есть люди. Для того, чтобы посмотреть, как мы с этим справляемся, нужно немного вернуться к прошлому. Сайты нужно поддерживать так, чтобы они не падали.

Что нужно сделать, чтобы сайт не падал? И в итоге, мы поняли, что для нас услуга поддержки оказалась важнее, чем услуга разработки. Если ты хочешь вырости бизнесово в два раза, тебе нужно больше идей. В начале три человека, потом 6, потом 12, 24. Ты хочешь в два раза больше, а это может быть только тогда, когда ты продашь 40 человек. А если вы представляете услугу охранного агентства, в итоге вы получаете классический админский кейс, вы получаете деньги за то время, пока админ не работает.

Вам нужно грамотно все настроить первое время, и если потом падать ничего не будет, вы просто получаете плату.

К 2010 году это стало нашей основной услугой.

Появились алерты (оповещения).

Алерты приходят одновременно в смс, нет «базы знаний» по инцидентам, очень простая коммуникация, когда вас трое, вы можете очень просто что-то проследить, у вас нет проблемы, что кто-то проснется, а кто-то не проснется от смс-кой. Базы знаний нет, соответственно начинается то, что никто не знает кто ответственный. 5 утра в Иркутске и каждый думает про другого, что тот сейчас возьмёт. И каждый не берет смску, никто не выходит онлайн, что в нашем случае было редко, но, скорее все трое одновременно вылазили.

Бывают пропущенные аварии, когда смски почему-то шли и их пропустили и нет понимания, что повторяется кейс, мы приходим, пытаемся что-то починить или иногда наступаем на одни и те же грабли. В этот момент мы поняли, что должны быть хотя бы самые простые правила назначения дежурных. Меняться.

Мы стали делать ретроспективы по любым пропущенным авариям, чтобы понимать, почему мы пропустили и как сделать, чтобы это больше не пропускалось. Начали накапливать базу знаний. Вот дальше оказалось так, что мы начали собирать всю историю алертов за то время, за которое мы работали.

Мы начали уставать и решили найти сотрудника, для того, чтобы отдать ему часть работы. Это был первый администратор, которого мы решили нанять и мы наступили, наверное, на все грабли, на которые, наверное, могли наступить.

Может быть очень грамотный администратор, грамотно настраивать системы, но в условиях стресса, экстремальных аварий, он не может сообразить быстро и как нужно.

Мы постоянно мониторили нагрузку на человека, чтобы понимать количество возможных выполняемых задач. Мы поняли, что это только переходный период и нам нужно найти столько людей, чтобы у нас были смены 8 часов, иначе выжить нельзя. У нас начались 8 часовые смены, людей стало очень иного, но у нас начались другие проблемы.

Есть много людей и как-то нужно сделать, чтобы они взаимодействовали между собой, они обменивались своими знаниями. Знаниями обмениваться очень сложно. Мы поняли, что с людьми нужно разговаривать, потому что люди живут в каком-то своем мире, у них появляются свои тусовки. Оказалось, что 8 часов смена ночью – тоже не очень хорошо. Ты подежурил ночью, ты приехал домой и если у тебя есть какие-то другие дела, ты из не можешь сделать. Соответственно, ты скорее всего опять не будешь спать. Ты поспишь чуть больше, но все равно меньше спишь. И мы поняли, что такие смены должны быть заменены на другое.

Мы разделили админов на категории. У нас есть дежурные, их смены короткие. Есть админы только на задачах, которые могут отдыхать в процессе работы. Есть админы в офисе, которые выполняют наши задачи. К примеру, сейчас по договору мы не делаем бекапы.

При этом один из четырех клиентов уверены, что мы их делаем.  Каждый второй приходит без бекапов. Им настроил какой-то фрилансер два года назад. А у нас, если вы не проверяете то, что бекап есть 21 день, скорее всего, их уже нет. У нас сейчас есть двое фултаймеров, которые занимаются тем, что создают бэкапы, рассматривают алерты, проверяют по кругу. У нас появился интерпрайс отдел.

Если ты какое-то время подежурил в админах, ты можешь туда попасть.  Если вдруг ты странный администратор и любишь разговаривать с людьми, можешь сидеть в чатах и разговаривать с людьми (у нас есть такие люди). Мы этим летом вспомнили прошлое и нас попросили сделать сайт, мы его написали, вспомнили как это делать. С наймом у нас все очень сложно. Если обычный админ сидит и выполняет конкретные задачи, то в нашем случае похоже на то, что есть некоторая команда, которая находится в палате реанимации, команда хирургов и им регулярно привозят больного, которого срочно нужно резать.

Мало того, что нужно сначала разобраться в том, что нужно делать. Если ты новый человек, можешь сделать что-то не так и испортить все. Поэтому пытаться учить людей – в нашем случае сейчас плохо. Мы хотим сделать так, чтобы можно было брать людей без опыта, учить их потихоньку с этим жить, пользоваться технологиями. Но пока мы не можем. У нас многозадачность. Человека можно научить, либо способность есть у него сразу.

Есть много проблем. Они не любят людей и стандартные способы мотивации тут не работают. Никто не будет уважать сотрудника, пока не поймет, что тот такой же крутой как Ваня, например, а Ваня может быть очень крутой.

Как заставить людей работать? Как можно сделать так, чтобы люди работали вместе, при этом разговаривали с клиентами и не грубили им? Я долго пытался подумать, как у нас это получилось, что люди работают, им нравится работать, они зовут друзей в компанию.

Сейчас главное, что у нас получается делать, чтобы люди оставались в компании и хотели продолжать тут работать. Бюрократия неприемлема. Главное – должна быть честность к людям. Проблем еще куча. Есть клиенты которые спрашивают у админов про то, спят ли админы, поскольку их видят и днем, и ночью. У менеджеров нет жизни.

Когда происходят аварии и клиенты приходят ругаться, Вы не должны переживать, что кто-то на вас ругается.

Менеджер не должен быть аутистом, он должен переживать за клиента, должен говорить, что и кому нужно сделать.

Если ты постоянно переживаешь, что происходит, тебе тяжело. Тебе нужен нормальный график и т.д.  Все слишком равны. И хороший, и плохой админ получают более-менее одинаковую зарплату, у нас нет системы поощрений и мотиваций. Мы же не будем давать им звездочки. Никто не знает, кто за что отвечает. Когда приходит новый человек, формально ему никто ничего не объяснят. Его закидывают в таски, там он получает задачи.

В целом круто работает то, что несмотря на то, что люди круто мотивируются тем, что они помогают другим, они мотивируются тем, что они действительно крутые. Так и живем 🙂