Egy kibertámadás, áramkimaradás, hardverhiba vagy akár egy emberi mulasztás percek alatt képes megbénítani egy vállalat működését. A kérdés nem az, hogy bekövetkezik-e valamilyen incidens – hanem az, hogy mikor. Azok a szervezetek élik túl ezeket az eseményeket minimális veszteséggel, amelyek időben gondolkodtak előre, és felépítettek egy megbízható felhő alapú katasztrófa-elhárítási tervet.
Ez az útmutató lépésről lépésre végigvezet a Business Continuity Plan (BCP) és a Disaster Recovery (DR) stratégia kialakításán felhő környezetben, különös tekintettel az RTO és RPO célok meghatározására.
Mi a különbség a BCP és a DR között?
Sokan összekeverik a két fogalmat, holott eltérő, de egymást kiegészítő területekről van szó.
A Business Continuity Plan (BCP) az üzletmenet-folytonossági terv: azt határozza meg, hogyan tudja a szervezet fenntartani az alapvető működést egy súlyos incidens alatt és után. Ez magában foglalja az embereket, a folyamatokat, a kommunikációt és az üzleti prioritásokat is.
A Disaster Recovery (DR) ezzel szemben az IT-infrastruktúra helyreállítására fókuszál: hogyan állítsuk vissza a rendszereket, adatokat és alkalmazásokat a lehető legrövidebb idő alatt. A DR a BCP egyik technikai pillére.
A kettő egymás nélkül nem teljes. Hiába van kiváló IT-helyreállítási tervünk, ha nem tudjuk, ki dönt válság közben, ki értesíti az ügyfeleket, vagy melyik üzleti folyamatot kell elsőként visszaállítani.
Az RTO és RPO: a két alapfogalom, amelyet mindenki ismer, de kevesen definiálnak pontosan
A felhő alapú DR stratégia gerincét két mérőszám alkotja:
RTO – Recovery Time Objective (helyreállítási idő célérték): Az a maximálisan megengedhető idő, amennyi alatt a rendszernek újra működőképesnek kell lennie egy leállás után. Például: „a webáruházunk legfeljebb 4 óráig lehet elérhetetlenül”.
RPO – Recovery Point Objective (helyreállítási pont célérték): Az a maximálisan elfogadható adatveszteség, amelyet az utolsó sikeres mentéstől mérünk. Például: „legfeljebb 1 órányi tranzakciós adat veszhet el”.
Az RTO és RPO értékei rendszerenként eltérőek. Egy éles e-commerce platform esetén mindkettő igen alacsony (akár percekben mért), míg egy belső riportrendszernél elfogadható lehet egy 24 órás RTO is. A helyes célértékek meghatározása üzleti kockázatelemzésen alapul, nem technikai becsléseken.
A felhő alapú katasztrófa-elhárítási terv kialakításának lépései
1. lépés: üzleti hatáselemzés (BIA – Business Impact Analysis)
Mielőtt bármilyen technikai megoldásba fognánk, fel kell térképeznünk, hogy az egyes rendszerek és folyamatok leállása milyen üzleti következményekkel jár.
Kérdések, amelyeket meg kell válaszolni:
- Melyik rendszer leállása jár a legnagyobb bevételkieséssel?
- Melyek a jogszabályi vagy szerződéses kötelezettségek (pl. SLA)?
- Milyen kölcsönös függőségek vannak az alkalmazások között?
- Mi a tényleges óránkénti kiesési költség (direkt és indirekt)?
A BIA eredménye egy prioritási lista lesz, amely megmutatja, melyek a kritikus rendszerek, és ezekhez kell hozzárendelnünk az RTO/RPO célértékeket.
2. lépés: kockázatértékelés és fenyegetéstérkép
A felhő alapú infrastruktúra csökkenti, de nem szünteti meg a kockázatokat. Az értékelés során azonosítani kell:
- Természeti katasztrófák (adatközpont régióját érintő esemény)
- Kibertámadások (ransomware, DDoS, adatszivárgás)
- Emberi hibák (téves konfiguráció, véletlen törlés)
- Felhőszolgáltató oldaláról érkező hibák (zónaleállás, API hibák)
- Ellátási lánc incidensek (harmadik féltől függő szolgáltatások kiesése)
Minden egyes kockázathoz becsüljük meg a bekövetkezési valószínűséget és az üzleti hatást. Ez lesz a kockázatmátrix alapja.
3. lépés: a DR stratégia architektúrájának meghatározása
A felhőben négy alapvető DR architektúra-modell létezik, amelyek eltérő költség-kockázat arányokkal rendelkeznek:
Backup & Restore (biztonsági mentés és visszaállítás): A legolcsóbb megoldás, de a leghosszabb RTO-val. Az adatokat rendszeresen mentjük felhőbe (pl. AWS S3, Azure Blob Storage), és incidens esetén ezekből állítjuk vissza a rendszert. Megfelelő alacsony prioritású rendszereknél, ahol az RTO akár 24+ óra is elfogadható.
Pilot Light: Az alapinfrastruktúra minimálisan fut a másodlagos régióban (pl. adatbázis-replikáció aktív), de az alkalmazásréteg el van állítva. Incidens esetén az alkalmazásokat gyorsan fel lehet húzni. RTO: általában 1-4 óra.
Warm Standby: Egy kisebb kapacitású, de teljesen működőképes másodlagos környezet fut folyamatosan. Incidens esetén csak skálázni kell. RTO: percekben mérhető.
Hot Standby / Active-Active: Mindkét környezet teljes terhelésen fut párhuzamosan, általában terheléselosztóval. A legdrágább, de szinte nulla RTO-t és RPO-t biztosít. Banki rendszerek, kritikus e-commerce platformok esetén indokolt.
A stratégia megválasztásakor mindig a BIA-ban meghatározott RTO/RPO célértékekből kell kiindulni – nem fordítva.
4. lépés: az adatvédelmi és mentési stratégia kialakítása
A felhő alapú DR tervnek explicit módon meg kell határoznia a mentési politikát:
- Mentési frekvencia: folyamatos replikáció, óránkénti snapshot, napi teljes mentés – a rendszer kritikusságától függően
- Megőrzési idő: mennyi ideig tároljuk a korábbi mentési pontokat (30 nap, 90 nap, 1 év)?
- Titkosítás: az összes mentett adat nyugalmi és átviteli állapotban titkosítva legyen
- Georedundancia: a mentések legalább két különböző fizikai helyszínen (régióban) legyenek tárolva
- Visszaállíthatóság tesztelése: a mentés csak akkor ér valamit, ha visszaállítható is
A 3-2-1 mentési szabály felhős interpretációja: legalább 3 példány az adatból, legalább 2 különböző tárolási rétegen (pl. elsődleges felhő + offsite backup), legalább 1 példány legyen georedundánsan elkülönítve.
5. lépés: a helyreállítási folyamatok dokumentálása
A DR terv csak akkor használható, ha részletesen, lépésről lépésre dokumentálva van – és ezt nem az incidens kellős közepén kell megírni.
A dokumentációnak tartalmaznia kell:
- Incidens észlelési és riasztási folyamat (ki értesít kit, milyen csatornán)
- Döntési fa: mikor aktiválják a DR tervet, ki a jogosult döntéshozó
- Technikai helyreállítási runbookok rendszerenként (lépésről lépésre)
- Kommunikációs terv: belső csapatok, ügyfelek, partnerek, sajtó értesítése
- Eszkalációs mátrix: ki veszi át az irányítást, ha az elsődleges felelős nem elérhető
- Visszakapcsolási terv: hogyan állunk vissza az elsődleges infrastruktúrára az incidens után
6. lépés: infrastruktúra-automatizálás és IaC
A felhő egyik legnagyobb előnye a DR szempontjából az infrastruktúra kódként való kezelése (Infrastructure as Code – IaC). Terraform, AWS CloudFormation vagy Azure ARM sablonok segítségével az egész infrastruktúra percek alatt újraépíthető egy másik régióban.
Az automatizálás előnyei:
- Emberi hiba nélküli, reprodukálható helyreállítás
- Drámaian rövidebb RTO
- Verziókövethető infrastruktúra-konfiguráció
- A DR tesztelése szinte semmibe kerül, mert az infrastruktúra eldobható
Érdemes CI/CD pipeline-ba integrálni a DR szkripteket is, hogy az infrastruktúra-változások automatikusan szinkronban maradjanak a helyreállítási tervvel.
7. lépés: tesztelés és rendszeres felülvizsgálat
A DR terv, amelyet soha nem teszteltek, nem ér semmit. A tesztelés típusai:
Asztali gyakorlat (tabletop exercise): A csapat átbeszéli a forgatókönyvet elméleti szinten. Gyors és olcsó, de nem mutatja meg a valódi technikai problémákat.
Komponensteszt: Egyetlen rendszer vagy backup visszaállítása izoláltan. Rendszeresen elvégzendő.
Teljes DR teszt (failover teszt): Az egész helyreállítási folyamat szimulálása éles vagy teszt környezetben. Évente legalább egyszer ajánlott.
Chaos Engineering: Véletlenszerű, kontrollált hibák injektálása az éles rendszerbe (pl. Netflix Chaos Monkey megközelítés) annak vizsgálatára, hogyan viselkedik a rendszer valódi stressz alatt.
Minden teszt után frissíteni kell a dokumentációt és a runbookokat.
Felhőszolgáltatók natív DR eszközei
A nagyobb felhőszolgáltatók saját DR megoldásokat kínálnak:
- AWS: AWS Elastic Disaster Recovery (DRS), Cross-Region Replication, Route 53 health check alapú failover
- Microsoft Azure: Azure Site Recovery, Geo-redundant storage (GRS), Traffic Manager
- Google Cloud: Cloud Storage multi-region buckets, Spanner globális replikáció, Cloud DNS failover
Ezek az eszközök beépíthetők az automatizált DR folyamatokba, és csökkentik a manuális beavatkozás szükségességét.
Szabályozói és megfelelőségi szempontok
Számos iparágban a DR terv nem csupán ajánlás, hanem jogszabályi kötelezettség. A GDPR például elvárja az adatok helyreállíthatóságát és a megfelelő biztonsági intézkedések dokumentálását. A PCI DSS szabvány pénzügyi adatok kezelőit kötelezi részletes BCP és DR dokumentációra. Az ISO 22301 az üzletmenet-folytonossági menedzsment nemzetközi szabványa, amelynek tanúsítása egyre több nagyvállalati tender elvárása.
Összefoglalás
Egy jól felépített felhő alapú katasztrófa-elhárítási terv nem luxus, hanem alapvető üzleti szükséglet. A BCP és DR stratégia kialakítása hat kulcslépésből áll: üzleti hatáselemzés, kockázatértékelés, architektúra meghatározása, mentési stratégia, részletes dokumentáció és rendszeres tesztelés. Az RTO és RPO célértékek üzleti döntések, nem technikai paraméterek – ezekből kell visszafelé meghatározni a megfelelő technológiai megoldást.
Ha segítségre van szükséged a felhő infrastruktúrád DR stratégiájának kialakításában, csapatunk szívesen segít – ismerkedj meg felhő üzemeltetési szolgáltatásainkkal, vagy nézd meg, milyen felhő migrációs tapasztalatokkal rendelkezünk.
