Systeem operationeel

Oude incidenten

donderdag 6th april 2023

Geen incidenten gemeld

woensdag 5th april 2023

Geen incidenten gemeld

dinsdag 4th april 2023

Netwerkstoring hosting en VPS cluster

Debrief storing

Gisteravond hebben we helaas te maken gehad met een storing aan een van onze hostingclusters. We begrijpen dat het vervelend is om downtime te ervaren en bieden onze oprechte excuses aan voor het ongemak dat dit heeft veroorzaakt.

Onze fysieke hardware is middels een virtuele laag aan elkaar gekoppeld om stabiliteit en performance te waarborgen. Dit stelt ons in staat om periodiek onderhoud, load verdeling en capaciteitsplanning toe te passen zonder dat downtime mee gepaard gaat. Helaas is er gisteren een bug ontdekt in de software die we gebruiken voor deze virtualisatie. Bij het uitbreiden van een van de clusters, trad er een compatibility issue op die normaal gesproken niet zou mogen voorkomen. Dit leidde ertoe dat na de uitbreiding van het cluster waar jouw hostingdiensten actief zijn, een interne netwerk update plaatsvond waardoor de netwerkconfiguratie onjuist werd aangepast.

We zijn onmiddellijk begonnen met onderzoek toen we dit ontdekten en hebben de netwerkconfiguratie van het betreffende cluster teruggezet naar de eerdere instelling. Helaas leidde dit niet tot het gewenste resultaat vanwege de softwarebug. Het virtualisatiesysteem heeft de virtuele machines onbedoeld na enkele minuten gestopt om datacorruptie te voorkomen. Het was erg complex om deze communicatielaag te corrigeren en de enige oplossing was om alle hardware fysiek uit te schakelen en deze één voor één op de juiste manier te herstellen.

Zoals je weet staan wij voor de meest hoogwaardige hardware- en softwareoplossingen en doen we er alles aan om op alle fronten risico's te minimaliseren. Wij hanteren de juiste procedures en redundantie, zodat we met minimale afhankelijkheid van hardware, software en netwerken kunnen zorgen voor de hoogste snelheid, stabiliteit en veiligheid. Helaas was deze situatie volledig onvoorzien, waar we enorm van balen. We weten namelijk als geen ander hoe belangrijk het is om jouw diensten zo bereikbaar en snel mogelijk te houden.

Om ervoor te zorgen dat we in de toekomst beter voorbereid zijn op eventuele storingen, wordt er in de nacht van aanstaande zondag op maandag onderhoud uitgevoerd en een patch voor dit probleem toegepast. Dit zal ons in staat stellen om onze reguliere werkwijzen weer te hanteren en deze problemen in de toekomst te voorkomen.

We willen nogmaals bedanken voor je begrip en geduld gisteren en we zullen er alles aan doen om ervoor te zorgen dat onze dienstverlening in de toekomst zo betrouwbaar mogelijk blijft.

Mocht je nog vragen hebben, schroom dan niet om deze te stellen.


Log

17:50 Er is op dit moment een storing gaande aan het hosting cluster netwerk. Ons technische team is hard aan de slag om de oorzaak te identificeren.

18:04 Het probleem is geïdentificeerd, we werken hard aan een oplossing.

18:29 Er worden verschillende oplossingsrichtingen doorgelopen, we houden je op de hoogte. Dank voor je geduld.

19:04 Er wordt een netwerk configuratie van vandaag teruggedraaid, waarmee de onderliggende hardware weer intern benaderd kan worden. Hiermee kunnen servers individueel bereikt worden om het individuele herstel in gang te zetten.

19:43 Verschillende delen van het netwerk zijn op het moment weer bereikbaar. We zijn nog hard aan de slag om het volledige herstel door te testen en structureel toe te passen.

20:04 We doen hard ons best om zo snel mogelijk jouw diensten weer bereikbaar te krijgen, het herstel is onderweg. Dank voor je geduld en excuses voor het ongemak.

20:17 Herstel is nagenoeg volledig compleet. Laatste websites en servers komen nu online en draaien inmiddels op volledige capaciteit.

20:24 Herstel afgerond. Nogmaals onze excuses voor het ongemak, we gaan intern debriefen hoe ae we dit kunnen voorkomen in de toekomst. Mochten er nog vragen zijn, schroom niet om contact op te nemen met onze support.