Nieuws
[afgerond] Storing op één van onze hardware nodes
Geplaatst door Michel [Support] aan 06-07-2022 22:23

Aangezien de originele nieuwsmelding behoorlijk onduidelijk werd vanwege de vele updates, hebben wij hieronder het één en ander samengevat ter verduidelijking.

Op 6 juli j.l. kregen wij een melding van een enorme load (= overbelasting qua rekenkracht/proccesors) via onze monitoring software inzake één van onze hardware nodes. Op de desbetreffende node stonden enkele kleinere VPS-en van klanten. De load op deze hardware node ging explosief omhoog (binnen enkele seconden ver boven de 400.00 load). Vervolgens crashte de node. Vervolgens hebben wij op afstand geprobeerd de node opnieuw op te starten (power reboot). Hierbij wordt tijdelijk de stroom van de node afgehaald en vervolgens de stroomtoevoer weer geactiveerd (met 1 á  2 minuten tussen). Ook dit hielp niet, dus ondertussen hadden wij al één van onze technici onderweg naar het datacenter gestuurd.

Toen onze tech ter plaatse was, kon deze de server direct monitoren. Na iedere reboot ging de load van de hardware node explosief omhoog, waardoor adequaat handelen voor de tech onmogelijk was. De oorzaak bleek door een enkele VPS te komen, die CloudFlare verkeerd had ingesteld (zie hier voor de juiste configatie van CloudFlare); hierdoor zorgde dat de DDoS aanval niet afgewend werd, maar juist versterkt werd door de verkeerde CloudFlare instellingen. Om hier achter te komen, heeft de tech alle VPS-en uitgezet en vervolgens individueel opgestart en gemonitord. Dit duurde al met al bij elkaar 2,5 uur.

Daarnaast, tot overmaat van ramp, was er één schijf beschadigd geraakt door de enorme overload en reboots. Dus de tech ter plaatse heeft alle VPS-en één voor één uitgemigreerd naar andere nodes. De migraties gingen behoorlijk langzaam vanwege de beschadigde schijf, daarnaast konden de migraties uitsluitend per VPS uitgevoerd worden. Uiteindelijk heeft de totale migratie tot ver na 4:00 geduurd.

Op 7 juli (einde middag) is de hardware node opnieuw opgezet en zijn s'avonds alle VPS-en terug gemigreerd naar deze node. Ondanks dat er géén enkele klacht is binnen gekomen op Helpburo over downtime, wilden wij wel deze VPS eigenaren tegemoet komen. Derhalve heeft de nieuwe node een veel hogere performance als voorheen. Hierdoor zijn alle VPS-en die op deze node stonden, vele malen sneller wat ook weer ten goede komt van de onderliggende websites op deze VPS-en. Deze performance upgrade is geheel gratis voor al deze VPS klanten. Dit alles uit coulance voor de downtime, ondanks dat hier bijna niemand wat van gemerkt heeft (gezien het latere tijdstip). Wij denken dat deze VPS klanten dit zeer zeker kunnen waarderen. En voor de goede orde; dit is een gratis en vooral blijvende performance upgrade.

En tot slot (nogmaals); indien u gebruik maakt van CloudFlare, wat natuurlijk geen enkel probleem is, gebruik dan wel de aanbevolen configuratie/instellingen zoals vermeld staat op Helpburo hier. Niet alleen voorkomt dit eventuele problemen inzake uw server (of website), maar u zorgt er dan ook voor dat CloudFlare correct ingesteld staat. Dus let hier op aub.


Kanttekening; de VPS die debet was aan alle problematiek is gemigreerd naar een andere (stand alone) node, zodat deze niet meer voor overlast kan zorgen voor andere VPS eigenaren.


Reacties (0)