Nieuws
[opgelost] Grote storing op een hardware node [Expired]
Geplaatst door Michel [Support] aan 17-11-2023 19:30

Op dit moment ondervinden wij een grote storing inzake één van onze hardware nodes.

Het probleem is dat er één Enterprise SSD uit is gevallen en de andere vertoon problemen. Hierdoor is het zeer lastig om bij de data te komen en als het mogelijk, dan gaat dit vrij langzaam. De problemen zijn gekomen eind van de middag. Het enige geluk was, dat er technici op het datacenter al aanwezig waren in verband met andere ingeplande werkzaamheden.

In het allerergste geval zetten technici een server image backup terug van de getroffen servers. En zal men in ieder geval trachten om de email te migreren vanaf de defecte hardware node. Zodra er meer bekend is, dan melden wij dit op deze nieuwspagina.

Excuses voor het ongemak in deze.


Update (20:35)
een aantal servers zijn terug online. Waarschijnlijk zal er data verloren zijn, maar technici hebben het best mogelijke gerestored. Er is gebruikt van een oudere server image van 14 november j.l. vervolgens is wel getracht voor deze servers de email te syncen vanaf de beschadigde hardware node. Dit gaat helaas niet heel erg soepel.

Update (22:20)
het restoren via backups en vervolgens proberen emails te restoren vanaf de problematische hardware node gaat tergend langzaam. Inmiddels staat het meerendeel van de servers weer online. Technici hebben dus de meest recente server image back-up (14 november j.l.) gebruikt om de servers per stuk te restoren. Vervolgens is er geprobeerd de email te syncen vanaf de defecte node. Op dit moment zijn technici nog volop bezig (inmiddels al ruim 6 uur bezig).

Update (00:15)
Inmiddels zijn alle servers weer terug online (op één na, waar technici nu nog de laatste handelingen op aan het verrichten zijn). Maar alles bij elkaar was het een zeer zware en moeizame avond. Het blijft een raadsel dat twee Enterprise SSD's dergelijke problemen deden vertonen; één gaf helemaal geen kick meer en de andere stagneerde. Technici hebben diverse zaken geprobeerd om de server te redden, maar dicht mocht niet baten. Wanneer er een nieuwe E-SSD erbij werd geplaatst en deze vervolgens gesynced werd, crashte de server volledig (iedere keer bij 8%). Ook hebben technici nog diverse andere zaken geprobeerd, zoals een 2e RAID array aan te maken op basis van RAID 1 en deze te mounten. Vervolgens geprobeerd om alle belangrijke server data hierheen te kopiëren. Maar weer hetzelfde probleem; na een paar minuten volledig crashen.

Om verdere crashes te voorkomen (en dus nog mogelijk meer of zelfs volledig dataverlies) hebben technici besloten om de getroffen servers te restoren uit de server images. Dit zijn niet de nieuwste, maar wel functionerend. Daarnaast is het gelukt om toch bij bijna alle servers de email te synchroniseren vanuit de defecte server naar de gerestorede servers. Helaas ging dit wel tergend langzaam (doorgaans maximaal 10 MBit/s).

Aangepaste content inzake websites en databases na 14 november moet men als verloren beschouwen helaas. Technici willen wel een poging wagen om eventuele kritieke bestanden en/of databases over te migreren, maar de kans op succes is gering. Indien u dit wenst, dan graag een support ticket aanmaken op Helpburo. Indien de hardware node nog altijd online staat, dan zijn technici bereid om een poging te wagen. Maar verwacht hier niet veel van aub. De problematische node laat vrij weinig toe. Het is al een klein worden dat onze technici het wel voor elkaar hebben gekregen om email te restoren (voor 92%).

Een aantal server klanten hebben een Backupmaster contract; deze hebben meer geluk gehad en hebben "slechts" een paar uur dataverlies. Technici hebben hiervoor de restore opdrachten reeds uitgevoerd vanuit Backupmaster voor de klanten/servers met een Backupmaster contract. Dit is inmiddels ook afgerond.

Het is en blijft vreemd dat twee Enterprise SSD's vrijwel tegelijk hebben begeven (wel allebei net iets andere problemen, maar het komt op hetzelfde neer). Het is ons meer dan genoeg bekend, dat (Enterprise) SSD's gelijktijdig kunnen uitvallen. Daarom schrijven wij grote hoeveelheden data weg op verschillende E-SSD's, zodat deze in de praktijk dus niet gelijktijdig uit kunnen vallen. En als er één uitvalt of problemen krijgt, dan wordt deze resoluut vervangen. Helaas was dit hier dus niet het geval, daar er één helemaal uitviel en de andere voor 20% functioneerde.

Ook hebben wij géén enkele waarschuwing en/of indicatie gekregen op onze geavanceerde monitoring software (24/7/365). Deze heeft geen enkele melding vooraf gegeven, zodat wij tijdig konden ingrijpen. Zelfs technici ter plaatse (voor ingeplande werkzaamheden) konden wel direct ingrijpen, maar ook dit bood dus geen soelaas. Wij gaan de server zondag avond defintief ontkoppelen en de Enterprise SSD's voor technisch onderzoek opsturen naar de fabrikant.

Update (20 november); de hardware node is offline gehaald voor verder onderzoek inzake de E-SSD's.


Reacties (0)