Инцидент в Service Desk системе: Полное руководство по управлению сбоями

1. Что такое инцидент в Service Desk с точки зрения ITSM

В мире управления ИТ-услугами (ITSM) и корпоративными сервисами (ESM) термин «Инцидент» (Incident) имеет строго определенное значение, отличающееся от «проблемы», «запроса на обслуживание» или «ошибки».

Инцидент — это любое событие, не входящее в стандартную операционную деятельность сервиса, которое приводит или может привести к нарушению качества услуги, снижению производительности или полной остановке бизнес-процесса.

Ключевая формула: Инцидент ≠ Ошибка в коде. Инцидент = «Что-то работает не так, как ожидал пользователь».

Примеры:

Пользователь не может войти в CRM.
Упал сервер с базой данных.
Не отправляется электронное письмо.
Завис терминал оплаты в магазине.

Главная цель управления инцидентами — максимально быстро восстановить нормальную работу сервиса, а не найти первопричину (это задача Problem Management).

2. Чем инцидент в Service Desk отличается от других типов обращений

Многие путают инциденты с другими категориями тикетов. Для эффективной работы Service Desk критически важно различать их.

Категория	Определение	Типичное решение	Пример
Инцидент	Сбой, нарушение штатной работы	Перезапуск, откат, исправление конфигурации	«Не печатает принтер»
Запрос на обслуживание	Стандартное изменение, заранее регламентированное	Выполнение по скрипту (RITM)	«Выдайте доступ к папке», «Установите ПО»
Проблема	Причина одного или нескольких инцидентов	Анализ кода, замена оборудования, изменение архитектуры	«Выяснили, что принтер падает из-за драйвера версии X»

Почему это важно: Закрытие запроса на установку ПО как «инцидента» портит статистику MTTR и вводит команду в заблуждение о реальном уровне сбоев.

3. Жизненный цикл инцидента в Service Desk

Полный цикл обработки инцидента в Service Desk включает строгую последовательность этапов.

3.1. Обнаружение

Инцидент может быть выявлен:

Пользователем (звонок, чат, форма на портале).
Системой мониторинга (Zabbix, Prometheus, SolarWinds).
Автоматической проверкой (синтетическая транзакция).

3.2. Регистрация

Создание тикета в системе ITSM:

Уникальный ID (INC000001).
Краткое описание.
Отметка времени.
Источник (звонок/чат/email).
Затронутый пользователь.

3.3. Классификация

Назначение атрибутов:

Категория: «Аппаратное обеспечение > Принтеры».
Приоритет: Решается через матрицу «Срочность x Влияние».

3.4. Диагностика

Первая линия поддержки (L1) пытается воспроизвести проблему и применить известное решение.

3.5. Эскалация

Два типа:

Функциональная: Передача L2/L3 (например, от Help Desk к сетевым инженерам).
Иерархическая: Уведомление руководителя, если нарушен SLA.

3.6. Решение и восстановление

Выполнение действия: перезагрузка службы, очистка кэша, замена детали, запуск бэкапа.

3.7. Закрытие

Агент проверяет подтверждение от пользователя. Обязательно:

Код закрытия (Решение / Отклонено / Дубль).
Комментарий для истории.

4. Приоритизация: Матрица влияния и срочности (Impact x Urgency)

Без правильной приоритизации Service Desk превращается в хаос. Используется классическая матрица ITSM.

Определения:

Влияние (Impact): Масштаб последствий. (1 пользователь vs 500 пользователей vs Бизнес-процесс).
Срочность (Urgency): Насколько быстро проблема ухудшает работу. (Немедленно / В течение дня / Терпимо).

Матрица приоритетов:

Влияние ↓ / Срочность →	Низкая (Low)	Средняя (Medium)	Высокая (High)
Высокое (High)	Приоритет 2 (High)	Приоритет 1 (Critical)	Приоритет 1 (Critical)
Среднее (Medium)	Приоритет 3 (Medium)	Приоритет 2 (High)	Приоритет 1 (Critical)
Низкое (Low)	Приоритет 4 (Low)	Приоритет 3 (Medium)	Приоритет 2 (High)

Пример: Сломался один принтер у секретаря (Влияние низкое, но отчет надо сдать через 5 минут — Срочность высокая) → Получает Приоритет 2 (High), а не «низкий».

5. Модели инцидентов

Для однотипных инцидентов создаются модели — предопределенные сценарии обработки.

Структура модели:

Триггер: «Сброс пароля Active Directory».
Шаги диагностики: Проверить блокировку, проверить дату последнего изменения.
Этапы эскалации: L1 -> Группа безопасности.
SLA Target: 1 час.
Решение: Отправить временный пароль через SMS.

Зачем это нужно: Модели позволяют автоматизировать назначение, сократить время реакции (новые сотрудники L1 просто следуют чек-листу) и обеспечить предсказуемость.

6. SLA, OLA и UC: Юридическая основа инцидентов

Управление инцидентами невозможно без временных контрактов.

SLA (Service Level Agreement): Обещание перед бизнесом. «Восстановим работу критического сервиса за 2 часа».
OLA (Operational Level Agreement): Внутреннее соглашение между ИТ-отделами. «Сетевая команда реагирует на запрос от Service Desk в течение 15 минут».
UC (Underpinning Contract): Соглашение с внешним вендором. «Поставщик облака заменит диск за 4 часа».

Метрики SLA:

MTTR (Mean Time To Resolve): Среднее время полного решения инцидента.
FTR (First Time Resolve): Процент инцидентов, закрытых на первой линии.
Abandon Rate: Процент брошенных звонков.

Важно: Если OLA нарушен (сетевики долго не берут тикет), но SLA выполнен (пользователь доволен) — это все равно провал внутреннего процесса.

7. Роли в процессе управления инцидентами

Роль	Зона ответственности
Пользователь (User)	Сообщает об инциденте. Подтверждает решение.
Агент Service Desk (L1)	Первый прием, классификация, решение простых случаев (FTR).
Специалист L2/L3	Глубокая диагностика, исправление на уровне инфраструктуры или кода.
Менеджер инцидентов	Отвечает за процесс в целом. Проводит «разбор полетов» (Post-Mortem) для крупных сбоев (Major Incident).
Владелец услуги	Отвечает за работоспособность сервиса. Принимает решение об откате изменений.

8. Major Incident — Крупный инцидент

Любой инцидент, затрагивающий критически важный бизнес-процесс или большое количество пользователей, объявляется Major Incident.

Признаки Major Incident:

Остановлены продажи (POS-терминалы не работают).
Не работает корпоративная почта > 30 минут.
Нарушена юридическая отчетность (например, не отправляются данные в ФНС).

Особенности обработки Major Incident:

Создается Room (Чат + видеоконференция).
Запрещена эскалация «снизу вверх» — менеджмент входит в чат немедленно.
Вводится роль Коммуникатора — он пишет статусы для всех сотрудников каждые 30 минут.
После решения пишется Post-Mortem Report (с указанием причины, хронологии и плана предотвращения).

9. Типичные ошибки в Service Desk при работе с инцидентами

Решение проблемы вместо обхода. Инцидент-менеджмент не требует исправления кода. Иногда «перезагрузить сервер» — это валидное закрытие инцидента, хотя проблема осталась для Problem Management.
Долгое удержание тикета на L1. Агенты боятся эскалировать, думая, что это снизит их KPI. В итоге SLA нарушается. Правильная эскалация — признак зрелого процесса.
Отсутствие шаблонов закрытия. Без кода закрытия невозможно построить отчетность (какие типы инцидентов самые частые?).
Игнорирование пользовательского подтверждения. Закрыл тикет — через 5 минут проблема повторилась. Это «блуждающий инцидент» (не устранен).

10. Инциденты в ESM (Enterprise Service Management)

Концепция ESM расширяет ITSM за пределы ИТ. Инцидентами могут быть не только сбои серверов, но и события в любых подразделениях.

Примеры не-ИТ инцидентов:

HR: Сломался турникет на проходной (физический доступ нарушен).
Финансы: Не работает терминал для оплаты счетов контрагентами.
Юридические вопросы: Система управления договорами не проставляет печати.
АХО: Прорвало трубу в серверной.

Для ESM применяется тот же жизненный цикл: регистрация, классификация (по влиянию на бизнес), эскалация ремонтной бригаде, решение и закрытие.

11. Автоматизация в управлении инцидентами в Service Desk системе

Современные Service Desk используют автоматизацию и искусственный интеллект:

Автоматическое назначение категории на основе текста обращения (NLP).
Сбор данных мониторинга прямо в тикет (скриншоты метрик CPU, логи ошибок).
Автоматическое создание проблем (Problem) при повторении одного и того же инцидента 3 раза за час.
Чат-боты первой линии: Бот сбрасывает пароль или перезапускает службу без участия человека.
Предсказание нарушения SLA: Система предупреждает менеджера: «В тикете INC42 осталось 10 минут до просрочки».

12. Как построить эффективный процесс управления инцидентами в Service Desk системе: Чек-лист

Для внедрения или аудита процесса ответьте «Да» на эти вопросы:

Единая точка входа (Service Desk) без «сарафанного радио»?
Разработана матрица приоритетов (Impact/Urgency) и она висит у каждого агента?
Определены роли (Incident Manager назначен приказом)?
SLA дифференцированы (по типам сервисов: для бухгалтерии один SLA, для тестовой среды — другой)?
Есть каталог известных ошибок?
Проводится пост-мортем после каждого Major Incident?
Автоматически линкуются связанные инциденты (если 20 человек пишут «не работает 1С», они видят один мастер-тикет)?

Заключение

Инцидент в Service Desk — это не просто «ошибка пользователя», это сигнальная система вашего ИТ и бизнеса. Правильно выстроенный процесс управления инцидентами позволяет:

Снизить простои (финансовые потери).
Повысить доверие бизнеса к ИТ (предсказуемость SLA).
Создать базу для устранение корневых причин.

Помните главное правило ITSM: Сначала восстановим, потом разберемся.

EvaProject

EvaWiki

EvaRMS

EvaLMS

EvaServiceDesk

EvaTest

EvaGit

EvaCI

New Eva 360

EvaESM

EvaITAM

EvaPlatform

Бесплатная on-premise версия для IT

Кейсы

Новости

Блог

База знаний

Документация

Поддержка

Сообщество

Словарь

Учебный центр

Академическая программа

RUTUBE

ВКонтакте

Telegram-канал

Для прессы