[opgelost] Grote storing op een hardware node [Expired]
Geplaatst door Michel [Support] aan 17-11-2023 19:30 |
|
Op dit moment ondervinden wij een grote storing inzake één van onze hardware nodes. Excuses voor het ongemak in deze.
Update (22:20) Update (00:15) Om verdere crashes te voorkomen (en dus nog mogelijk meer of zelfs volledig dataverlies) hebben technici besloten om de getroffen servers te restoren uit de server images. Dit zijn niet de nieuwste, maar wel functionerend. Daarnaast is het gelukt om toch bij bijna alle servers de email te synchroniseren vanuit de defecte server naar de gerestorede servers. Helaas ging dit wel tergend langzaam (doorgaans maximaal 10 MBit/s). Aangepaste content inzake websites en databases na 14 november moet men als verloren beschouwen helaas. Technici willen wel een poging wagen om eventuele kritieke bestanden en/of databases over te migreren, maar de kans op succes is gering. Indien u dit wenst, dan graag een support ticket aanmaken op Helpburo. Indien de hardware node nog altijd online staat, dan zijn technici bereid om een poging te wagen. Maar verwacht hier niet veel van aub. De problematische node laat vrij weinig toe. Het is al een klein worden dat onze technici het wel voor elkaar hebben gekregen om email te restoren (voor 92%). Een aantal server klanten hebben een Backupmaster contract; deze hebben meer geluk gehad en hebben "slechts" een paar uur dataverlies. Technici hebben hiervoor de restore opdrachten reeds uitgevoerd vanuit Backupmaster voor de klanten/servers met een Backupmaster contract. Dit is inmiddels ook afgerond. Het is en blijft vreemd dat twee Enterprise SSD's vrijwel tegelijk hebben begeven (wel allebei net iets andere problemen, maar het komt op hetzelfde neer). Het is ons meer dan genoeg bekend, dat (Enterprise) SSD's gelijktijdig kunnen uitvallen. Daarom schrijven wij grote hoeveelheden data weg op verschillende E-SSD's, zodat deze in de praktijk dus niet gelijktijdig uit kunnen vallen. En als er één uitvalt of problemen krijgt, dan wordt deze resoluut vervangen. Helaas was dit hier dus niet het geval, daar er één helemaal uitviel en de andere voor 20% functioneerde. Ook hebben wij géén enkele waarschuwing en/of indicatie gekregen op onze geavanceerde monitoring software (24/7/365). Deze heeft geen enkele melding vooraf gegeven, zodat wij tijdig konden ingrijpen. Zelfs technici ter plaatse (voor ingeplande werkzaamheden) konden wel direct ingrijpen, maar ook dit bood dus geen soelaas. Wij gaan de server zondag avond defintief ontkoppelen en de Enterprise SSD's voor technisch onderzoek opsturen naar de fabrikant. Update (20 november); de hardware node is offline gehaald voor verder onderzoek inzake de E-SSD's. | |