Blogg

Så får du notiser om problem med tjänster i Azure

De senaste åren har det blir allt vanligare att organisationer flyttar sina tjänster och applikationer ut i molnet. Man flyttar resurser till främst AWS, Google Cloud och Azure, men det förändrar dock inte det faktum att vi har ett behov av att veta hur vår IT-miljö fungerar. Eftersom vi på Approved är nischade inom bl.a. övervakning förekommer Azure Monitor frekvent på vår blogg, där vi skriver om varför detta är en riktigt bra tjänst, men även hur det kan hjälpa oss att övervaka våra resurser på bästa tänkbara sätt. Förutom detta finns det en annan aspekt som man bör ha i åtanke.

Vem övervakar övervakningen?

Vi övervakar våra tjänster med hjälp av Azure Monitor, men vem övervakar tjänsten Azure Monitor? Detta har Microsoft givetvis koll på och man övervakar denna tjänst precis som man gör med alla andra tjänster i Azure för att säkerställa en god leverans. Man gör det också för att direkt kunna ta åtgärder på uppkomna fel. Med hjälp av Azure Monitor har vi möjlighet att följa upp hur de olika tjänsterna i Azure fungerar, och det är hur detta går till som jag tänkt beskriva mer i denna artikel.

För ett tag sedan skrev jag om hur du kan komma igång med larmhantering i Azure Monitor. Om du inte läst den posten än rekommenderar jag starkt att du tar en titt innan du går vidare med den här artikeln, det kommer hjälpa dig att förstå vad det är jag pratar om och vad jag gör längre ner i denna post. Du hittar den artikeln här.

Håll koll på Azure-tjänsters status

För att se statusen på tjänsterna som gör Azure så bra som det är så klickar du dig till Monitor, antingen från dina favoriter (som bilden nedan) eller genom ”All services” och sen söker du efter Monitor så hittar du rätt.

1-6

 

Klicka nu på "Service health" I menyn till vänster.

För att enbart se de saker du är intresserad av måste du filtrera vilka olika tjänster larmet skall baseras på. För att vara säker på att få notifieringar som även omfattar globala fel har jag valt att titta på alla regioner, inte bara de mer lokala regionerna. Jag har även begränsat antalet tjänster som omfattas till de som jag verkligen är intresserad av. Detta är givetvis individuellt och skiljer sig åt mellan olika organisationer.

Det här urvalet behöver visserligen uppdateras för att matcha verkligheten, men det låter oss undvika onödiga notiser om tjänster som vi inte använder oss av.

2-4

 

Självklart fanns inga pågående fel med det urval av tjänster som jag gjort när denna artikel skrevs, men jag kunde se att det fanns en aktiv incident tre dagar tidigare rörande Azure Automation. Man kan alltid klicka på ”Issue name” för att få mer information om incidenten och följa utvecklingen i ärendet.

3-5

 

Planerat underhåll och rekommendationer

Om du är nyfiken på planerat underhåll, vilket jag gissar att de flesta av oss är när det gäller vår IT-miljö, finns det en flik kallad “Planned maintenance” som talar om ifall det finns något planerat underhåll som kommer omfatta våra tjänster och resurser. Precis som i fallet med de aktiva incidenterna fanns inget planerat underhåll när denna artikel skrevs.

4-1

 

Den andra fliken jag vill berätta mer om är “Health advisories” som informerar oss om förändringar som gjorts i tjänster och som kan påverka våra resurser. I det här fallet fanns en förändring rörande “Action groups” (som används längre ner i artikeln) som omfattade samtliga regioner. Du kommer att få information om vad som förändrats, vad du kan göra åt det men du kan även följa utvecklingen genom den officiella Azure-appen (Android, iOS) eller genom portalen.

5-1

 

Skapa larm som notifierar om avbrott för tjänster

Det finns två sätt att skapa nya larm för detta. Det första är att klicka på ”Health alerts” till vänster i menyn och skapa ett nytt larm därifrån. Nackdelen med detta sätt är att urvalet av tjänster som vi gjorde tidigare inte följer med här, istället får du börja om på nytt. Istället för detta sätt valde jag att gå tillbaka till ”Service issues” där vi var tidigare och filtrerade urvalet.

6-1

 

Klicka på “Create service health alert” och du kommer se att urvalet av tjänster följer med. Regions-valet måste däremot fyllas i på nytt här, men eftersom jag även vill fånga in globala fel låter jag denna snappa upp samtliga regioner. Du kan även välja om du vill ta emot larm om ”Service issue” enbart eller om du även vill ta emot information om planerat underhåll eller rekommendationer.

7-1

 

Klicka på ”Add” i Actions-sektionen för att konfigurera larmet och dess åtgärder.

8-1

 

Klicka på “Select action group” och välj vilken du vill använda. Om du läst den tidigare artikeln som länkas i början av denna artikel bör du här ha åtminstone en action group, eller åtminstone veta hur man kan skapa en.

Klicka sedan på “Create action rule”.

För det här larmet väljer jag ingenting i "Criteria" utan jag vill veta allt om allt som rör mitt urval av tjänster.

9-1

 

Ge din regel ett namn så att du lätt kan identifiera den och dess funktion vid senare tillfällen.

10-1

 

Nu borde det se ut ungefär som i bilden nedan. Klicka nu bara på ”Done” för att spara dina ändringar.

11-1

 

Och slutligen namnger vi vår larmregel och ger den en beskrivning (vilket ju alltid är trevligt) och väljer vilken resursgrupp vi vill spara den i. Avsluta genom att klicka på “Create alert rule”.

12-1

 

Det var det hela. Från och med nu kommer du få notifieringar om pågående fel som påverkar dina resurser. Larmet som vi nyss skapat är nu synligt i Azure Monitor tillsammans med de andra larmen som skapats.

Sammanfattning

Du har nu fått se hur du kan få notifieringar om pågående fel i Azure, men även hur du kan ta del av information om utvecklingen i ärenden. Även om Azure är en av de största moln-leverantörerna kommer vi förr eller senare att stöta på problem. På det här sättet får vi reda på när saker händer istället för att få den informationen från våra användare. Det finns såklart sätt att undvika många av de fel som uppstår, exempelvis genom lastbalansering över olika noder som placerats i olika regioner. Eftersom de flesta fel inte omfattar samtliga regioner kan man ofta undvika vissa fel genom detta sätt att bygga tjänster.

För de som använder Twitter kan jag varmt rekommendera att följa Azure Support där. De är väldigt lätta att få tag på och lägger upp väldigt bra information om pågående fel och felsökningar. Du hittar dem här.

Är du intresserad av att veta mer om dessa bitar, eller funderar du kring hur Azure Monitor hade kunnat passa in i er organisation och hjälpa er framåt med övervakning av era moln-resurser? Tveka inte att höra av dig direkt till mig så kan vi prata vidare. Du når mig enklast på min mail här.

_E2A6682-1Daniel Örneling

Ämnen: Azure Log Analytics Azure Automation Digital Operations Azure Monitor Log Analytics Azure