S Opsgenie už kritické incidenty jen tak nepřehlédnete

Petr Tichý
Petr Tichý
Implementace
27.04.2021

Jak odbavit incident co nejrychleji

Digitalizace neúprosně postupuje. Touha urychlit vývoj a nasazování kódu dala vzniknout moderním nástrojům, které jsou mezi sebou úzce propojené. S digitalizací a propojením všech a všeho se ale pojí i obrovská nevýhoda – když máte výpadek, ví o tom v mžiku celý svět. 

Incidenty mohou stát firmu nejen peníze, ale i reputaci. Zkrátit dobu odpovědi na incident a dobu jeho řešení je proto důležitější než kdy dřív. Jak ale zajistit, aby vaši IT operátoři v záplavě nedůležitých notifikací nepřehlédli kritický incident? Základem úspěchu je správně nastavit proces incident managementu (řízení incidentů):

  • Který systém na vás křičí nejúporněji? Podívejte se, odkud vám chodí duplikované a nedůležité výstrahy. Zamyslete se nad tím, zda můžete takové výstrahy filtrovat a kategorizovat. Podívejte se, jestli neexistují výstrahy, které by šly spojit v jednu.
  • Na koho notifikace padají? Projděte svůj scheduling model a ujistěte se, že odpovídá tomu, jak jako firma potřebujete fungovat. Notifikace musí padat na ty správné osoby v ten správný moment.
  • Automatizujte, automatizujte, automatizujte. Ručně odkliknutá výstraha a zaslaná notifikace, anebo automaticky zalogovaná výstraha a automaticky odeslaná notifikace? Automatizace proces nejen urychlí, ale také zajistí, že se notifikace dostane k té správné osobě. Notifikace nebude muset nejprve projít přes 2-3 operátory, kteří si s ní neví rady.
  • Kam notifikace padají? Někdo si notifikaci rád přečte na emailu, jiný spíš zareaguje na telefonát a někomu stačí, aby se mu u aplikace rozsvítila červená tečka. Nastavte komunikační proces tak, aby notifikace lidem padaly tam, kde si jich určitě všimnou.
  • Průběžně systém monitorujte. Nastavte si automatické zasílání reportů o zdraví systému. Funguje všechno, jak má?
  • Je po incidentu? Tak ho zanalyzujte. Po každém incidentu nebo výpadku si dejte čas na jeho dokumentaci. Podívejte se, co se během incidentu stalo. Zapište si to. Příště díky tomu budete chytřejší. 

Co je Opsgenie?

Opsgenie je platforma pro usnadnění řízení incidentů, určena je primárně DevOps týmům. 

Opsgenie kontroluje všechna upozornění z monitorovacích nástrojů. Pokud se vyskytne nějaký problém, ihned vytvoří tzv. „alert“ (výstrahu) a podle nastavených preferencí každého z uživatelů pošle notifikaci kompetentnímu uživateli. Pokud uživatel do určitého času výstrahu nepotvrdí, popř. neuzavře (podle nastavených pravidel), probíhá eskalace na dalšího nastaveného uživatele. Výstrahy se automaticky přiřazují k jednotlivým řešitelským týmům/řešitelům vytvořeným v Opsgenie. 

Co všechno Opsgenie umí:

Přehledné uspořádání výstrah (alerts)

Aby se vám ve výstrahách lépe orientovalo a ty důležité se nikam neztrácely, Opsgenie vám pomůže s jejich vytvořením, kategorizací a filtrováním. 

Výstrahy lze vytvářet automaticky nebo manuálně. Výstrahy umožňují integraci s monitorovacími systémy, service deskem (například Jira Service Management) a dalšími týmovými nástroji jako například Jira Software, Planio, nebo třeba ServiceNow. Výstrahy je možné filtrovat, kategorizovat, a také propojit se souvisejícími výstrahami. Navíc k nim můžete připojit přílohy či poznámky. Veškeré dostupné informace o dané výstraze tak budete mít uložené přehledně na jednom místě. Funkčnost výstrah je možné dále přizpůsobit notifikacemi, eskalacemi a rotacemi v rámci on-call schedules, ale i různými pravidly. 

Zaslání notifikací do těch správných kanálů

Zastihnout v případě incidentu toho správného člověka na tom správném místě nemusí být jednoduché. Někdo nerad zvedá telefonáty, jiný zase nečte emaily. Proto Opsgenie umožňuje každému uživateli nastavit si vlastní metodu i pravidla notifikace, a to nezávisle na ostatních. V případě uskutečnění události (eventu) – jako například vytvoření výstrahy (alertu) nebo začátek on-call rotace – Opsgenie příslušným uživatelům rozešle notifikace podle jejich vlastních notifikačních pravidel. Uživatelé si mohou vybrat ze čtyř notifikačních metod:

  • Email
  • SMS
  • Telefonní hovor
  • Mobilní aplikace

Pravidla navíc umožňují rozlišit notifikace na základě obsahu, eventu nebo času vzniku výstrahy (alertu). V rámci pravidla pak lze nastavit, jakou metodou a zároveň za jak dlouhou dobu po uskutečnění daného eventu, dostane daný uživatel notifikaci (například: 10 minut po vytvoření nové výstrahy obdrží uživatel SMS). V případě nedostupnosti daného uživatele pak můžete zvolit přesměrování notifikací.

Nastavení automatizace v týmech

Týmy leží v základu Opsgenie – v jejich prostředí nastavujete automatizaci a pravidla, pomocí kterých se výstrahy  dostanou k těm správným lidem. 

Týmy jsou tvořeny uživateli; uživatel může být členem několika týmů zároveň. Pokud chcete uživatele pozvat do týmu, stačí  mu poslat pozvánku. Vyhnete se tak manuálnímu vytváření profilu uživatele. Uživatelům můžete přiřadit roli v týmu. Opsgenie nabízí možnost vytvořit si své vlastní role a definovat pro ně libovolná pravidla. Ve většině případů vám ale postačí dvě předdefinované role – Team Admin a Team Member. V Týmech můžete nastavit tři základní operace:

  • Rozvrhy služeb (On-Call Schedules)
  • Eskalace (Escalations)
  • Routing rules

Vytvoření on-call rozvrhu služeb a rotací

Při založení týmu dochází automaticky k vytvoření on-call schedules – rozvrhů, ve kterých můžete nastavit, kdo je v určitý čas na příjmu (on-call). On-call schedules jsou konfigurovatelné tak, aby byla vždy upozorněna ta správná osoba. Díky tomu se vám nestane, že by kritické incidenty zapadly v moři ostatních notifikací. Administrátoři a team administrátoři můžou konfigurovat on-call schedules pomocí denních, týdenních, popřípadě custom rotací.

Součástí on-call schedule je i možnost nastavit rotaci – skupinu uživatelů, která se střídá ve stejné směně. Každý uživatel má v rotaci určen přesný časový úsek, ve který má být na příjmu (on-call), a notifikace dostává pouze během této přednastavené doby. Rotace jsou kumulativní – pokud se časové úseky rotací překrývají, všechny tyto rotace jsou aktivní. Může tak být nastaveno více on-call uživatelů najednou.

Jeden on-call schedule může obsahovat více rotací. Každá rotace může být omezena na určitý časový úsek. Jakmile jsou rotace definovány, Opsgenie automaticky přepočítá a ukáže, kdo je na příjmu, a to podle následujících parametrů:

  • Starting date and time – určuje, kdy se rotace aktivuje
  • End date and time – určuje, kdy se rotace deaktivuje
  • Participants – můžou být uživatelé, týmy a eskalace
  • Rotation – typ rotace
    • Daily – rotace uživatelů se bude opakovat každých 24 hodin
    • Weekly – rotace uživatelů se bude opakovat každý týden
    • Custom – vlastní výběr opakování rotace

Eskalace incidentu 

Aby se z rozesílání notifikací nestal kobercový nálet, můžete nastavit zaslání notifikace konkrétnímu uživateli na příjmu s možností eskalace. Ostatní uživatele tak Opsgenie informuje pouze v případě, že notifikace zůstane po určitý čas bez povšimnutí a nedojde k jejímu potvrzení či uzavření. V rozesílání notifikací přitom postupuje posloupně podle nastavených pravidel. Eskalace lze nastavit individuálně pro každý tým. Používají dvě podmínky:

  • Alert is not acknowledged (Výstraha není potvrzena)
  • Alert is not closed (Výstraha není uzavřena)

Integrace více jak 200 nástrojů

Pro Opsgenie je dostupných přes 200 integrací. Lze do něj tedy integrovat různé monitorovací nástroje, ale i chatovací (např. Slack) a samozřejmě všechny Atlassian nástroje. Pokud se tedy stane jakákoliv akce v integrovaných nástrojích, Opsgenie vše sumarizuje na jednom místě. Stejně tak existuje Opsgenie mobilní aplikace, kterou lze využít jako jednu z notifikačních metod. Seznam dostupných integrací najdete zde.

Kdy a proč zvážit koupi Opsgenie

Opsgenie určitě zvažte, pokud jste ve dne v noci zasypaní notifikacemi a unikají vám důležité incidenty, potřebujete zrychlit odezvu a zkrátit dobu potřebnou k řešení incidentů. Tahle DevOps platforma má zkrátka vše, co je k incident managementu potřeba a není zbytečně složitá. My obzvlášť oceňujeme, že DevOps týmům přináší: 

  • Větší flexibilitu: Opsgenie umožňuje uživateli nastavit si, jak by měly jeho notifikace vypadat – zastihnete ho tak tam, kde je mu to nejmilejší.
  • Podrobný přehled o incidentech: Protože do Opsgenie padají incidenty ze všech monitorovacích nástrojů, odpadne vám nutnost sledovat více míst najednou – všechno je přehledně na jednom místě. Navíc získáte lepší přehled o tom, kdy a jak incidenty vznikají.
  • Nulovou chybovost v odezvě: S Opsgenie eskalací už žádný incident jen tak nepřehlédnete.

Pořiďte si vlastního „ops džina“

Máte o Opsgenie zájem? Kontaktujte nás na ✉️  atlassian@morosystems.cz – pomůžeme vám s aktivací a zároveň Vám nabídneme atraktivní cenové podmínky. Opsgenie je také dostupné zdarma jako součást Jira Service Management. 

Odkud jsme čerpali?

Chcete se dozvědět o našich školeních, eventech a novinkách jako první?