Zarządzanie wydarzeniami (ITIL)
Zarządzanie zdarzeniami , zgodnie z definicją ITIL , to proces, który monitoruje wszystkie zdarzenia występujące w infrastrukturze IT . Pozwala na normalną pracę, a także wykrywa i eskaluje warunki wyjątków.
Zdarzenie można zdefiniować jako każde wykrywalne lub zauważalne zdarzenie, które ma znaczenie dla zarządzania Infrastrukturą IT lub dostarczania usługi IT oraz oceny wpływu, jaki odstępstwo może spowodować na usługi . Zdarzenia to zazwyczaj powiadomienia tworzone przez usługę IT, element konfiguracji (CI) lub narzędzie do monitorowania.
Cel/zakres
- Celem jest możliwość wykrycia zdarzeń, ich zbadania i ustalenia prawidłowego działania kontrolnego
- Zdarzenia (ostrzeżenia i wyjątki) mogą służyć do automatyzacji wielu rutynowych czynności
- Zarządzanie zdarzeniami można zastosować do dowolnych aspektów zarządzania usługami , które można kontrolować i które można zautomatyzować (elementy konfiguracji)
- Zapewnij mechanizmy wczesnego wykrywania incydentów.
- Niektóre rodzaje zautomatyzowanych działań mogą być monitorowane przez wyjątki, co skraca przestoje.
Obsługa zdarzeń
Powiadamianie i wykrywanie zdarzeń
Powiadomienia o zdarzeniach mogą być zastrzeżone, tylko niektóre narzędzia do zarządzania mogą być używane do wykrywania zdarzeń. Większość elementów konfiguracji (CI) generuje powiadomienia o zdarzeniach przy użyciu otwartego protokołu SNMP ( Simple Network Management Protocol ). Elementy CI są skonfigurowane do generowania zestawu zdarzeń w oparciu o doświadczenie projektanta. Po wygenerowaniu powiadomienia o Zdarzeniu zostanie ono wykryte przez określone narzędzie (odczytane i zinterpretowane)
Filtrowanie zdarzeń
Filtrowanie oznacza, że powiadomienie o zdarzeniu może zostać zignorowane lub przekazane do narzędzia do zarządzania. W przypadku zignorowania zdarzenie zostanie zwykle zapisane w pliku dziennika na urządzeniu, ale nie zostaną podjęte żadne dalsze działania. Podczas etapu filtrowania zdarzenie otrzyma poziom korelacji (typ: informacyjny, ostrzegawczy lub wyjątek). Etap filtrowania nie zawsze jest obowiązkowy, niektóre CI mają istotne zdarzenia, które są przekazywane bezpośrednio do narzędzia do zarządzania (nawet jeśli są duplikowane).
Znaczenie wydarzenia
Standardowa kategoryzacja oparta na znaczeniu wydarzenia:
- Informacyjne (INFO): zdarzenie nie wymaga natychmiastowego działania i nie stanowi wyjątku. Są one zapisywane w plikach dziennika i przechowywane przez z góry określony czas. Tego typu zdarzenie służy do sprawdzenia stanu urządzenia lub usługi, potwierdzenia stanu aktywności, generowania statystyk (logowanie użytkownika, wykonanie zadania wsadowego, włączenie urządzenia, liczba użytkowników zalogowanych do aplikacji)
- Ostrzeżenie (WARN / ALERT): zdarzenie jest generowane, gdy urządzenie lub usługa (aplikacja / narzędzie) zbliża się do uzgodnionego progu ( KPI ). Ostrzeżenia mają na celu powiadomienie grupy/procesu/narzędzia w celu podjęcia niezbędnych działań w celu zapobieżenia wystąpieniu wyjątku.
- Wyjątek (ERROR): oznacza, że usługa lub urządzenie aktualnie działa poniżej normalnych parametrów/wskaźników (predefiniowanych). Oznacza to, że ma to wpływ na usługę biznesową, a urządzenie lub usługa wykazuje awarię, spadek wydajności lub utratę funkcjonalności (awaria serwera WWW, utrata zasięgu CS dla kilku witryn). Awaria urządzenia to błąd.
Zwróć uwagę, że poniższy dodatek nie jest typem zdarzenia, ale analizą, którą można przeprowadzić z dzienników zdarzeń:
- Analiza trendów Dzienniki zdarzeń należy regularnie analizować pod kątem wskazań, że wzorce zdarzeń [INFO, OSTRZEŻENIE, ALERT, BŁĄD] mogą wskazywać na leżący u podstaw problem, który można rozwiązać przed poważnym zakłóceniem usługi.
Odpowiedź
Na tym etapie procesu dostępnych jest kilka opcji odpowiedzi. Niektóre z dostępnych opcji to:
- Logowanie zdarzeń: niezależnie od rodzaju zdarzenia dobrą praktyką powinno być rejestrowanie zdarzenia i podjętych działań. Zdarzenie może zostać zarejestrowane jako Zapis zdarzeń lub może zostać pozostawione jako wpis w dzienniku systemowym urządzenia.
- Alert i interwencja człowieka: w przypadku zdarzeń wymagających interwencji człowieka zdarzenie należy eskalować. Celem alertu jest powiadomienie właściwego zasobu (osoby) do obsługi zdarzenia.
Zapis incydentu: incydent może zostać wygenerowany po wykryciu wyjątku.
-
RFC : w przypadku RFC podkreślono dwa scenariusze:
- Wyjątek (dodano dwa nowe urządzenia sieciowe bez wymaganej autoryzacji)
- Do zmiany (aby zapobiec awarii systemu plików, serwer musi zostać zaktualizowany. Może minąć trochę czasu, zanim zmiana zacznie działać.)
Zamknięte wydarzenie
- W przypadku zdarzeń, które wygenerowały incydent , problem lub zmianę, należy je formalnie zamknąć linkiem do odpowiedniego zapisu z innego procesu
- Zdarzenia informacyjne są po prostu rejestrowane, a następnie wykorzystywane jako dane wejściowe do innych procesów, takich jak tworzenie kopii zapasowych i zarządzanie pamięcią masową. Zdarzenia automatycznej odpowiedzi są zwykle zamykane przez wygenerowanie drugiego zdarzenia.