В этой статье мы разберем, почему изменения — главная причина 70–80% инцидентов в ИТ, и как с помощью 5 логических шагов превратить рискованные апдейты в предсказуемый бизнес-процесс.

1. Что такое Управление изменениями в ITSM (ITIL 4)?

В рамках управления ИТ-услугами (ITSM), базирующегося на библиотеке ITIL, Change Management — это процесс, целью которого является:

  • Максимизация количества успешных ИТ-изменений.
  • Снижение рисков, влияния и масштаба происшествий при изменениях.
  • Быстрое выполнение изменений в соответствии с бизнес-требованиями.

Ключевой термин (по ITIL 4): Изменение — это добавление, модификация или удаление всего, что может оказать прямое или косвенное влияние на ИТ-услуги.

Важно разделять понятия:

  • Change Management (процесс) — отвечает на вопрос «Как безопасно провести изменение?».
  • Release Management (управление релизами) — отвечает на вопрос «Как собрать, протестировать и развернуть новую версию?». Эти процессы работают в связке.

Типы изменений по ITIL

Для эффективной работы все изменения делятся на три типа, чтобы не тратить время на не важное:

Тип изменения Описание Требует ли CAB (комитет)? Пример
Стандартные (Standard) Низкорисковые, предварительно утвержденные, выполняются по инструкции. Нет (автоматизированы или по шаблону). Создание нового пользователя, смена пароля, очистка временных логов.
Нормальные (Normal) Средний или высокий риск. Требуют оценки и утверждения (CAB). Да, разная степень (от тех. эксперта до CAB). Апдейт версии БД, смена архитектуры сети, обновление ядра ОС.
Экстренные (Emergency) Критический сбой или уязвимость (Security Patch). Нужны здесь и сейчас. Да, но в ускоренном формате (eCAB — чат/звонок). Исправление zero-day уязвимости, перезагрузка отказавшего основного коммутатора.

Почему это важно: Если вы утверждаете в CAB «добавление поля в справочник», вы убиваете Agile. Если вы без утверждения меняете ядро СУБД в пятницу вечером — вы саботируете SLA.

2. Почему изменения — главная причина инцидентов

По статистике консалтинговых компаний (Forrester, Gartner):

  • ~80% серьезных сбоев в работе ИТ-инфраструктуры происходят из-за неудачных изменений или неуправляемых процессов обновления.
  • ~50% времени инженеров тратится на «тушение пожаров», возникших после вчерашнего обновления.

Классический сценарий: Разработчик вечером «быстро поправил» конфигурацию балансировщика, забыв уведомить команду. На следующее утро половина сервисов недоступна, бизнес теряет деньги, а инцидент-менеджер ищет причину 4 часа.

Вывод: Ни один инженер не вносит изменения со злым умыслом, но человеческий фактор («я думал, это безопасно») требует формального фреймворка.

3. 5 важных шагов для эффективной работы (подробный алгоритм)

Рассмотрим классический жизненный цикл Нормального изменения (High/Medium Risk). Это стандарт индустрии, описанный в ITIL.

Шаг 1. Инициирование и логирование (Заявка на изменение – RFC)

Любое изменение начинается не с командной строки, а с создания Request for Change (RFC)Кто делает: Инициатор (админ, разработчик, бизнес-аналитик).

Что должно быть в RFC (минимально):

  • Уникальный ID.
  • Описание «как есть» и «как должно стать».
  • Обоснование (Business Case). Зачем мы это делаем? (Безопасность, производительность, новый закон, фича).
  • План отката (Backout Plan). Что делать, если через 10 минут все упадет? — Это самый важный пункт. Если нет плана отката, изменение нельзя одобрять.
  • Предварительные дата и время окна изменений (Change Window).

Шаг 2. Оценка и анализ воздействия (Impact Assessment)

На этом этапе технический эксперт и менеджер услуги оценивают риски. Кто делает: Change Manager + Тех. архитектор (или владелец CI).

Критерии оценки:

  1. Scope (Что затронуто): Какие конфигурационные единицы (CI) задеты? (1 сервер? 1000 рабочих станций? Виртуальный кластер?)
  2. Impact (Влияние на услуги): Сколько пользователей пострадает при сбое? Какие бизнес-процессы лягут?
  3. Likelihood (Вероятность неудачи): Делаем обновление драйвера (10% риска) или меняем ядро (60% риска)?
  4. Resources (Ресурсы): Есть ли свободные руки, чтобы делать откат в 3 часа ночи?

Результат: Присвоение приоритета (Priority = Impact + Urgency). Например, «Высокий риск / Среда».

Шаг 3. Утверждение и планирование (CAB / eCAB)

Кто делает: Change Advisory Board (CAB). Это не «дядя в галстуке», а группа людей:

  • Change Manager (председатель).
  • Технические эксперты (знают «что внутри»).
  • Представитель бизнеса (знает «когда можно»).
  • Менеджер по безопасности (SecOps).
  • Менеджер по инцидентам (на случай экстренного отката).

Форматы работы CAB:

  • Обычный CAB: Раз в неделю. Рассматривают нормальные изменения на следующую неделю.
  • Экстренный (eCAB): В любое время (Telegram, телефон, срочный созвон). Решение за 10 минут. Требует post-factum документации.

Решения CAB:

  • ✅ Утверждено (Approved) — можно выполнять.
  • ⏸️ Отложено (Deferred) — не сейчас (ждите окна).
  •  Отправлено на доработку (Rework) — нужен план Б (план отката слабый).
  • ❌ Отклонено (Rejected) — слишком опасно или ненужно.

Шаг 4. Сборка, тестирование и реализация (Deployment)

Это этап, где процесс пересекается с DevOps и CI/CD. Кто делает: Команда внедрения (инженеры, разработчики).

Чек-лист внедрения:

  • Среда тестирования: Изменение сначала применяется на клоне «прод» .
  • Нагрузочное тестирование: Не упадет ли производительность на 50%?
  • Check-points (Точки невозврата): Делаем бэкап БД, конфигов, дампа ВМ.
  • Колл на деплой: Конференция до начала работ: «Синхронизируем часы, начинаем».

Во время деплоя: Инженер комментирует в RFC логе: «00:00 — Начало работ. 00:15 — Патч применен. 00:20 — Сервисы встали…».

Шаг 5. Пост-реализационный анализ и закрытие (PSA)

Изменение еще не закончено, когда кнопка «Запуск» нажата. Нужно убедиться, что мир не рухнул. Кто делает: Change Manager (мониторит), Инцидент-менеджер.

Действия по закрытию:

  1. Период наблюдения: Обычно 24–48 часов (или следующий бизнес-день).
  2. Проверка метрик: Не выросло ли количество ошибок 500 в логах? Не подскочило ли время ответа API?
  3. Формальное закрытие: Если новых инцидентов, связанных с RFC, не создано — статус меняем на «Успешно завершено».
  4. Разбор неудачи (Post-Mortem): Если изменение провалилось или вызвало аварию, проводится отдельное совещание (без поиска виноватых!). На выходе — пункты в «Реестр известных ошибок (KEDB)».

Важно: Если через час после изменения упал несвязанный сервис — это не повод закрывать изменение. Возможно, была скрытая зависимость.

4. Роли и ответственность (RACI Matrix для малой и крупной компании)

Чтобы процесс не буксуял, четко распределите роли. Вот модель RACI (Responsible, Accountable, Consulted, Informed):

Действие Инициатор Change Manager Тех. эксперт (CAB) Бизнес-владелец
Создание RFC R (делает) I C
Оценка риска C A R C
Утверждение (нормальное) I A (решает) C C
Утверждение (экстренное) C I C A
Выполнение работ R I I I
Проверка успеха C R C
Закрытие RFC I A I I

Легенда: R — исполнитель, A — ответственный (подписант), C — консультирует, I — информируется.

5. Метрики успеха и типичные анти-паттерны

KPI для Change Manager (чем измерять эффективность):

  • CSI (Change Success Rate): % успешных изменений (цель > 95%). Одно неудачное изменение в месяц из 20 — норма.
  • Lead Time: Время от создания RFC до утверждения (чем меньше, тем лучше, но не в ущерб безопасности).
  • Emergency Change Ratio: % экстренных изменений от общего числа (> 5-10% — плохо, значит у вас нет плановой архитектуры и все горит).
  • Change Backout Rate: % откатов (цель < 2-3%).

Чего делать НЕЛЬЗЯ (Анти-паттерны):

❌ CAB без полномочий — когда собираются 15 человек, но никто не может сказать «НЕТ» главному инженеру.

❌ Изменения в пятницу вечером — если это не экстренное исправление, оставьте на понедельник. (В крупных банках правило «No change Friday» — закон).

❌ План отката из серии «потом разберемся» — это не план.

Заключение: Change Management как фасилитатор, а не стоп-кран

Грамотное управление изменениями в ITSM не мешает бизнесу, а наоборот — ускоряет его. Оно дает разработчикам смелость менять систему, зная, что процесс продуман. Оно дает бизнесу уверенность, что завтра CRM не упадет из-за одного админа с правами root.

Внедряйте эти 5 шагов постепенно: начните с регистрации RFC даже для мелких правок и создания простого плана отката. Через месяц вы заметите, что количество авралов сократилось вдвое.

Главная формула Change Management:

Предсказуемость + Контроль = Скорость