Doomsday scenario, Complot, of toch Coïncidenties?
(hoewel die in de
vrije natuur in deze mate en combinatie niet voorkomen, denk ik). Dit kun je niet
verzinnen.
Stelt u zich dit
eens voor:
- Verhuizing naar een nieuw pand,
inclusief verhuizing van onze hele ICT infra-structuur, KPN lijnen, ADSL
etc;
- (Gedwongen) verhuizing van websites
(omdat onze hosting provider niet meer kon voldoen aan kwaliteits- /
veiligheidseisen).
Punt 2 had zich
moeten voltrekken vóór 31 januari (en eigenlijk al eind december – begin
januari), punt 1 stond geplanned op 25 januari. Derhalve een geplande
tussenruimte van ongeveer 4 weken.
Punt 2 liep uit,
door foute / onvolledige informatie van leveranciers, maar ook door foutieve
beslissingen, handelingen en slordigheden van de bedrijven, waaraan wij de
operationele uitvoering hadden opgedragen (overigens wel op basis van een
volledig door ons opgestelde project document, inclusief criteria,
deliverables, timelines en wat dies meer zij). Dit issue zullen wij in een
separaat artikel uitvoering beschrijven en de betrokken 3e partijen.
Met betrekking
tot punt 1. KPN belde de dag vóór de verhuizing: “Morgen komen wij niet voor de
verhuizing, sorry, wij hebben een foutje gemaakt”. Gelukkig, hebben wij bij het
ontwerp van onze infra-structtur, fall-back mogelijkheden ingebouwd, voor een
aantal zaken zelfs 2 of 3. Om een lang verhaal, waar we in een toekomstig
artikel uitgebreid verslag van zullen doen, kort te maken, KPN vertelde ons,
dat wij pas ca. 6 februari aan de beurt zouden zijn. 2 weken geen telefoon,
geen ADSL, nada. Veel discussie en ge...ver. Uitkomst: 31 januari dan maar. 1
week "slechts" geen KPN ADSL.
Daarbij kwam, dat
de fall back positie, die wij hadden gecreëerd voor het mogelijk volledig falen
van de KPN lijnen, in het nieuwe pand uiteraard nog niet was geïnstalleerd.
Wij hebben toen
één van de strategische opties, die nog geïmplementeerd diende te worden, met
directe ingang in werking gezet. Één van de laptops, was daartoe al in een
eerder stadium gepreconfigureerd als communicatie server.
Bij de
concurrentie van KPN een mobile data card besteld, werd geleverd binnen 40 uur
per koerier! In de tussentijd overeenkomst gesloten met de eigenaar van
het dichtsbijzijnde WiFI netwerk, met
een redelijke signaalsterkte, voor tijdelijk meeliften op dat netwerk
(weliswaar met een beperking ten aanzien van de te gebruiken bandbreedte, maar
toch, wel bereikbaar gebleven) .
Keys aangemaakt,
servers verplaatst naar een plek, waar wel ADSL beschikbaar was en ze onder
toezicht stonden (dus niet in het lege oude pand laten staan uit
veiligheidsoverwegingen), allelei zaken geherconfigureerd en dan draaien.
Hoofdnummer KPN doorgeschakeld op de mobiele telefoon. Immers de lijnen bleven
wel actief in het oude pand. Waarschuwing op de websites gezet. Wij konden
derhalve telefonisch bereikbaar blijven, weliswaar niet volledig op het normale
niveau, maar wel bereikbaar. Crisis bezworen, maar toch, een verschrikkelijke
hoop werk. Dankzij het robuuste design van onze infrastructuur en applicaties,
met name met het oog op calamiteiten, hebben wij deze rampspoed min of meer
zonder onderbreking overleefd.
De laptop, als
portable communicatie server werkte perfect. De installatie van de Vodafone
mobile data card, werkte binnen 10 minuten, activering binnen een kwartier.
Daarna hadden wij
op het “basis”station de beschikking over ADSL (via Vodafone Mobiel breedband),
2 VoIP lijnen, (naast de verbinding via de mobiele telefoon), een verbinding
met de servers via Remote desktop, een VPN of 2 en een back-up WiFI verbinding
via een nabijgelegen netwerk. Alles werkte “comme un tierelier”.
Maar toen kwam
wederom een bericht van KPN. 31 januari voor het aansluiten van ADSL zou ook
niet gehaald worden. 7 februari op zijn vroegst, signaal doorgeprikt in de
centrale op 8 februari door onze ISP. Geen nood dachten wij, want wij hebben
alternatieve opties. Maar dat bleek ook niet helemaal waar.
(Overigens
ontvingen wij een brief van KPN op 5 Februari, gedagtekend 1 Februari,
dat onze ADSL op 31 Januari aangesloten zou worden!!!)
Dinsdag 6
februari was er een grote dDoS attack op 3 root DNS servers van het Internet.
Op 7 februari werden onze websites verhuisd. Precies op dat moment bleek onze
nieuwe hosting provider –na eveneens een aantal dDoS attacks op een aantal
websites- ernstige IP routing problemen te hebben. Onze websites niet te
bereiken (voor iedereen) gedurende ca 2 uur.
Dus gaven wij de opdracht om de oude sites wat langer beschikbaar te
houden.
Na enige tijd
kregen wij bericht, dat de problemen waren verholpen. Wij hebben toen zelf
gecontroleerd en derden laten controleren of dat inderdaad het geval was. En
wat bleek, “men” kon de sites wel laden vanaf de nieuwe provider, maar wij
konden er niet bij. Wij bleven de oude IP adressen doorkrijgen.
Ook zagen wij nog
een aantal klanten en andere bezoekers via een link op het oude IP adres
binnenkomen (overigens is dat tot op de dag van vandaag nog steeds bij enkelen
het geval (op 16 feb 2007 t/m 14:00 uur weer 3 stuks!)) Wij hebben toen een
flink aantal uren in analyse van het probleem gestoken en een groot aantal
tests uitgevoerd. Meer dan een vermoeden van een mogelijke oorzaak kwam daar
niet uit.
Uiteraard hebben
wij contact opgenomen met onze service provider en onze hosting provider.
Antwoord hosting provider: alles werkt hier goed. Antwoord ISP, nadat wij
hadden aangetoond, dat er een sterke indicatie was, dat het bij hen zat: wij
zullen dit escaleren naar de 2e lijns support. Achteraf bleek het
ook niet primair bij hen te zitten, maar feitelijk op een nog hoger niveau.
Om een lange
opsomming van zaken tussen 8 en 15 februari kort weer te geven, (jazeker wij,
en anderen met ons, zijn er bijna 8 dagen intensief mee bezig geweest), min of
meer tegelijkertijd speelden de volgende issues:
- een aantal DDoS attacks, bij zowel de
hosting provider als de 3 root DNS servers kortelings voorafgaand aan
vervolgens:
- verhuizing van websites,
- een hosting provider met IP routing
problemen,
- een ISP met IP routing problemen,
- een registrar, die 1 ding vergat bij
de werkzaamheden voor de verhuizing, hetwelk later een cruciale rol bleek
te spelen,
- een uitvoerend bedrijf, dat fouten
zag en daarop niet reageerde,
- een oud IP adres, dat noodgedwongen
een paar uur langer aktief moest blijven en daarna net iets te lang aktief
bleef,;
Een samenloop
-ongeveer tezelfdertijd- van het refreshen van DNS info bij de ISP op het moment
van verhuizen en de IP routing problemen bij zowel de ISP als de hosting
provider. Dat in combinatie met diezelfde
verhuizing en het noodzakelijk tijdelijk (en te lang) in stand houden van een
oud IP adres, waardoor er op de hoogste niveaus binnen Internet meer dan 1 IP
adres voor de websites bleek te zijn. En hier en daar nog wat andere fouten en
missers, zoals onvoldoende inrichting en onderhoud van de DNS gegevens bij een
aantal ISP’s, het vergeten door te geven van een ns server en zo meer.
Men zal
begrijpen, dat het uitpuzzelen van deze bijna Gordiaanse knoop van min of meer
toevallige gebeurtenissen en onderlinge afhankelijkheden, ook in
tijdsvolgordelijkheid, een zware klus voor alle direct en indirect betrokkenen
is geweest. Niet iets, dat je in een uurtje of twee oplost. Wij zijn er wel
trots op, dat wij in nauwe samenwerking met de 2e en zelfs 3e
lijns support van onze ISP (in dit geval Vodafone!), alsook met behulp van andere specialisten
uiteindelijk het probleem hebben weten te analyseren.
De oplossing van
het probleem was echter niet aan ons voorbehouden. Het begon zichzelf op te
lossen bij de volgende refresh ronde van de diverse DNS servers, mede op basis
van het feit, dat de houdbaarheidstermijn van een IP adres meestal op 7 dagen
staat. Wel is gebleken, dat een aantal ISP's toch nog wel wat fouten en
slordigheden in hun hele DNS informatie en beheer heeft zitten
(Zie ook hier ).
RAvD; m.m.v. Joost Knippels (V.)