Nieuws
[opgelost] Storing op Plesk shared hosting server [Expired]
Geplaatst door Michel [Support] aan 21-03-2023 21:50

Er was hedenavond een storing op één van onze hardware node met daarop een Plesk shared hosting server. Hierdoor waren websites, email diensten e.d. tijdelijk niet bereikbaar. Hieronder de uitgebreide uitleg inzake het (hardware) probleem en aanvullende informatie.

Technici waren ondertussen op het datacenter gearriveerd, maar het probleem heeft zichzelf opgelost. Er was één schijf die problemen veroorzaakte, echter was deze nog niet als "bad" (oftewel kapot) gemarkeerd door het systeem. Hierdoor bleeft deze defecte schijf gewoon doordraaien, maar dus met problemen.

Als gevolg hiervan werkte het systeem en de onderliggende server niet, waardoor het systeem compleet vast liep (maar beperkt aantal commando's mogelijk). Bij de laatste reboot zag de RAID controller dus wel dat de schijf kapot was en deze dus als "bad" gemarkeerd. Vervolgens werd de reserve schijf (hotspare) actief en is de content nu aan het syncen over de RAID array.

Tijdens de resync proces, wat tot 1 á 2 uur kan duren, draait de server gewoon en zijn alle diensten weer beschikbaar. Performance kan iets minder zijn (circa 10%), maar dit is alleen tijdens het resync proces.

Hardware kan altijd kapot gaan, immers bestaat een server uit honderden verschillende onderdelen. Het ene onderdeel kan sterker of een langere levensduur hebben als een ander onderdeel. Zo ook met schijven. Wij vervangen onze hardware (en servers) direct bij meldingen van ons monitor systeem (24/7). Helaas kan hardware het ook "fout" doen, zoals in dit geval een RAID controller. Als een schijf niet als "bad" (defect) wordt gemarkeerd, dan blijft het systeem hierop doordraaien met alle consequenties van dien.

Normaliter werkt een RAID controller feilloos met het constateren van een foute schijf, maar het kan dus in uitzonderlijke gevallen dus ook een defecte schijf missen en deze niet als defect markeren, waardoor de hotspare schijf dus niet actief wordt. Een zeer uitzonderlijke situatie dus (dit is pas de 2e keer in de afgelopen 22 jaar).

Klanten vergeten soms hoe ingewikkeld een server in elkaar zit. Er kunnen duizend verschillende problemen ontstaat; connectiveit, hardware falen (server, switch, APC, etc), foutieve update (OS, Plesk, kernel) en ga zo maar door. De meest voorkomende (simpele) problemen zijn snel te herstellen en dit proberen wij altijd zo snel mogelijk te doen, zelfs in de avonduren zoals nu. Echter sommige problemen kunnen niet op afstand opgelost worden en daarvoor moeten technici dan naar het datacenter. Dit soort zaken kosten tijd.

Onze technici, hoe leuk hun het datacenter ook vinden, wonen en slapen er niet. Dus als er serieuze problemen zijn, zoals nu, heb aub geduld en hou de nieuwspagina in de gaten. Wij melden altijd alles en zo snel mogelijk. En ook proberen wij dit natuurlijk zo spoedig mogelijk op te lossen. En je moet het probleem eerst achterhalen alvorens je dit kan oplossen en dit is ook niet altijd direct duidelijk. Wij vinden het zelf ook, net als u als klant, zeer ververlend dat er problemen zijn met een server. Maar wij proberen dit altijd zo spoedig mogelijk op te lossen.

Hoe dan ook; alles draait momenteel weer en de RAID array is alle data aan het syncen met de hotspare. Morgen wordt defecte schijf vervangen door een nieuw exemplaar en vervolgens deze ingesteld als nieuwe hotspare. Tijdens het vervangen van de defecte schijf zullen alle diensten gewoon blijven draaien. Excuses voor het ontstane ongemak in deze.

Update (22 maart 16:15): de defecte schijf is vervangen door een nieuw exemplaar en als hotspare (reserve) ingesteld.


Kanttekening; zoals u kunt lezen zijn wij met grote urgentie hiermee bezig, dus aub geduldig afwachten en niet (meerdere) support tickets inschieten. Hou daarentegen onze nieuwspagina's altijd in de gaten. Dit scheet onnodige support tickets. Bij voorbaat dank.


Reacties (0)