A legtöbb cég, amellyel találkozunk, nem azért fizet sokat a felhőért, mert sok erőforrást használ, hanem mert sosem csinálták végig rendesen azt az egyszerű ellenőrzést, ami megmutatná, hol folyik el a pénz.

Az iparági adatok szerint az átlagos vállalati felhőköltség 30%-a felesleges kiadás: leállított, de nem törölt erőforrások, csúcsterhelésre méretezett gépek, amelyek valójában 10–20%-os kihasználtsággal futnak, fejlesztői környezetek, amelyek éjjel-nappal járnak, holott csak munkaidőben van rájuk szükség.

Ez nem hanyagság. Ez egyszerűen az, ahogy a felhő működik: azonnal provizionálható, könnyű elindítani valamit – és pontosan ezért könnyű elfelejteni is.

Hogyan nő ki a felhőszámla a kontroll alól?

A jelenség szinte minden cégnél ugyanolyan mintát követ. Az elején minden rendben van: az első erőforrások provizionálása tudatos döntés, a büdzsé ismert, az architektúra átlátható. Aztán jönnek az új projektek, a tesztkörnyezetek, a „csak erre a hétre” jellegű gyors megoldások, amelyek hónapokig futnak tovább. Jönnek a migráció során átemelt, de sosem lekapcsolt régi szerverek. Jönnek a snapshot-ok, amelyeket valaki elindított egy biztonsági másolat kedvéért, és aztán senki nem gondolt arra, hogy a régiek törlésre kerüljenek.

Mindeközben a számla lassan, de biztosan nő. Nem ugrásszerűen – nem annyira, hogy riasztson –, hanem hónapról hónapra pár százalékkal. Egészen addig, amíg valaki nem néz rá alaposan, és meg nem kérdezi: de mégis miért ennyibe kerül ez?

A felhő egyik legfontosabb tulajdonsága – hogy bármit azonnal el lehet indítani – egyben a legnagyobb veszélye is a költségkontrollnak. Ami könnyen indul, az könnyen ott is marad.

A felhő számlád nem hazudik, csak nehéz olvasni

Az AWS, az Azure és a Google Cloud számlák mögött megbúvó részletek – usage type-ok, SKU-azonosítók, régiós díjak, data transfer tételek – olyannyira összetetté teszik a költségstruktúrát, hogy még tapasztalt mérnökök is eltévednek bennük. Nem véletlen, hogy külön eszközök (AWS Cost Explorer, Azure Cost Analysis, GCP Billing Reports) léteznek arra, hogy értelmezhetővé tegyék ezeket az adatokat.

A valódi probléma nem az, hogy nem látod a számlát. A probléma az, hogy nem tudod, mit kellene keresni benne.

Éppen erre csináltunk valamit.

A 10 pont, ahol szinte minden cég pénzt veszít

Az elmúlt időszakban összegyűjtöttük azokat a visszatérő mintákat, amelyeket a leggyakrabban látunk felhőinfrastruktúra-auditok során. Nem elmélet – ezek konkrét, ismétlődő esetek, amelyek szinte minden AWS-, Azure- vagy GCP-t használó cég infrastruktúrájában előfordulnak.

Az alábbiakban a leggyakoribbakat mutatjuk be röviden, de az összes részletét – a konkrét konzolképernyőkkel, szűrési lépésekkel és gyorsjavítási javaslatokkal együtt – egy ingyenesen letölthető ellenőrzőlistában foglaltuk össze.

1. Lefoglalt, de nem futó erőforrások

Ez a legtöbbek számára meglepő: a leállított (stopped) virtuális gépek és adatbázisok után a felhőszolgáltatók továbbra is díjat számítanak fel a lefoglalt kapacitásért és a tárolóért. Egy „leállított” erőforrás nem törölt erőforrás.

Ezt egyszerű megvizsgálni: az AWS EC2 konzolon szűrj „stopped” állapotra, és nézd meg a „Launch time” oszlopot. Ha hetek óta áll valamit, valószínűleg törölni kellene.

2. Túlméretezett instance-ok

Az infrastruktúrák többségét csúcsterhelésre tervezik – ami ésszerű. De ha az átlagos CPU-kihasználtság heteken át 10–25% körül van, az azt jelenti, hogy a gép kétharmada üres. Egy m5.xlarge helyett egy m5.large ugyanazt a munkát végzi el, és 50%-kal kevesebbet kerül.

Az AWS Compute Optimizer, az Azure Advisor és a GCP Recommender Hub automatikusan jelzik ezeket a lehetőségeket – de csak akkor, ha valaki rendszeresen nézi őket.

3. Dev/test környezetek 24/7 futása

A fejlesztői, staging és tesztkörnyezetek jellemzően munkaidőben szükségesek – este 6 után és hétvégén szinte soha. Ha ezek folyamatosan futnak, az erőforrások közel 75%-a feleslegesen számlázódik.

Egy ötfős fejlesztői csapat esetén ez havonta akár több ezer dollár is lehet, ami automatikus le- és felkapcsolással (AWS Instance Scheduler, Azure Automation, GCP Cloud Scheduler) teljes egészében megspórolható.

4. Hiányzó Reserved Instance lefedettség

Az on-demand árazás kényelmes, de egy- vagy hároméves elkötelezettséggel (Reserved Instance, Savings Plan, Committed Use Discount) 40–72%-os megtakarítást lehet elérni ugyanolyan teljesítmény mellett. Ha az infrastruktúra alaprétege – a prod adatbázisok, a core webszerverek – stabilan fut, akkor minden on-demand dollar felesleges kiadás ott, ahol commitment is elegendő lenne.

5. Nem optimalizált storage tier-ek

Az S3 Standard tárolás 23-szor drágább, mint az S3 Glacier Deep Archive – miközben 2 évnél régebbi logok, archivált adatok és ritkán olvasott backup-ok számára az archív tier bőven elegendő. Ugyanez vonatkozik a managed adatbázisok tárhelyére: a gp2 és gp3, az io1 és st1 közötti különbség nem triviális, és sok helyen soha nem lett újragondolva az első provisionálás óta.

6. Kimenő adatforgalom (egress) díjak

A befelé irányuló forgalom (ingress) ingyenes. A kimenő (egress) nem. Ha az alkalmazás sok adatot ad ki – videóstreaminghez, nagy API válaszokhoz, régióközi kommunikációhoz – ez gyorsan a számla 20–40%-ává válhat. CDN bevezetése vagy régiók összevonása drasztikusan csökkenthet ezen.

7. Snapshot-ok és régi disk image-ek

Egyenként olcsók, összesítve meglepőek. Ha hetente készülnek snapshot-ok és sosem törlik a régieket, néhány hónap alatt több száz felesleges pillanatfelvétel gyűlhet össze. Az AWS-ben az EC2 > Snapshots nézeten szűrj a saját tulajdonú, 90 napnál régebbi pillanatfelvételekre – sok esetben ezek biztonságosan törölhetők.

8. Kihasználatlan load balancerek és statikus IP-k

Projekt-leállások, migrációk után visszamaradó load balancerek és le nem osztott Elastic IP-k csendben számláznak tovább. Az AWS-ben az Elastic IPs listán az „unassociated” szűrő megmutatja a feleslegeseket – jellemzően percek alatt felszabadíthatók.

9. Túlméretezett managed service-ek

Egy RDS db.r5.2xlarge Multi-AZ példány havi körülbelül 1200 dollárt jelent – akkor is, ha szinte üres. Managed Redis, Elasticsearch, Kafka klaszterek sokszor „biztonságos” méretben lesznek provisionálva induláskor, és soha nem kerülnek újraértékelésre. Ha az átlagos CPU 20% alatt van és a kapcsolatszám alacsony, a resize-olás azonnali megtakarítást hoz.

10. Hiányzó cost allocation tag-ek

Ha az erőforrások nincsenek projekt, csapat, környezet és owner szerint megcímkézve, nem tudod megmondani, mi mennyibe kerül. Ez azt jelenti, hogy senki nem felelős a költségekért, és a felesleges kiadások hónapokig észrevétlenek maradhatnak.

Ez a pont az egyetlen, amely önmagában nem közvetlen kiadás – de közvetett hatása a legnagyobb. Amíg nem tudod, melyik csapat vagy projekt melyik erőforrást használja, addig nem lehet sem számonkérni, sem tudatosan csökkenteni a költségeket. A tapasztalat azt mutatja, hogy azok a cégek, amelyek bevezették a kötelező tagelési politikát, 3–6 hónapon belül természetes módon kezdték el csökkenteni a felesleges kiadásokat – egyszerűen azért, mert a csapatok elkezdtek felelni a saját büdzséjükért.

A minimum tagek, amelyeket érdemes minden erőforráson bevezetni: Environment, Project, Owner, Team, CostCenter.

Hogyan nézz utána a saját infrastruktúrádban?

A fenti 10 pont átnézése nem igényel sem speciális eszközt, sem külső segítséget – csak tudni kell, hogy pontosan hol és mit keress az AWS, Azure és GCP konzolokon.

Összeállítottunk egy ingyenesen letölthető ellenőrzőlistát, amely minden ponthoz megmutatja a konkrét lépéseket: melyik menübe kell menni, mit kell szűrni, és mit jelent az, amit találsz. AWS-re, Azure-ra és GCP-re egyaránt.

Töltsd le az ingyenes felhőköltség-ellenőrzőlistát →

Az ellenőrzőlista letöltése ingyenes, és az átnézése – ha mindent rendszeres időközönként tartasz – 10–15 percet vesz igénybe havonta.

Mennyit lehet ténylegesen megtakarítani?

Ez a leggyakoribb kérdés, és az őszinte válasz az, hogy infrastruktúránként nagyon különböző – de általában meglepően sokat.

A right-sizing és a leállított erőforrások cleanup-ja tipikusan az aktuális számla 10–20%-át hozza el azonnal, különösebb kockázat nélkül. A Reserved Instance lefedettség kialakítása stabil munkaterhelésen 40–60%-os megtakarítást jelent azokon az erőforrásokon. A dev/test környezetek automatikus le- és felkapcsolása akár 75%-ot is hozhat azon a szegmensen.

Ezek nem ígéretek, hanem tipikus tartományok – a pontos szám attól függ, milyen állapotban van az infrastruktúra, mikor volt utoljára átnézve, és milyen arányban futnak stabil vs. változó munkaterhelések.

Amit biztosan mondhatunk: ha az infrastruktúra legalább 6–12 hónapja nem volt auditálva, és az erőforrások egy részét egy-két évnél régebben provisionálták, ott biztosan van megtakarítási lehetőség. A kérdés csak az, hogy mekkora.

Mi a következő lépés, ha találsz valamit?

Az ellenőrzőlista megmutatja, hol a probléma. A megoldás egy részét – a low-hanging fruit-ot, mint a leállított erőforrások törlése vagy a snapshot-cleanup – bárki elvégezheti maga. A komolyabb optimalizációkhoz, mint a Reserved Instance stratégia kialakítása, a right-sizing tervezése több hónapos adatokra, vagy az egész infrastruktúra átvilágítása, érdemes szakértő segítségét kérni.

Ha a lista átnézése után úgy látod, hogy van komolyabb felhő optimalizálási és DevOps szolgáltatásainkási lehetőség, de nem tudod, hogyan kezdd el, foglalj egy ingyenes 30 perces konzultációt – megnézzük együtt, hol a legtöbb megtakarítási lehetőség a ti konkrét infrastruktúrátokban.

Ha inkább egészben szeretnéd kiszervezni a felhő üzemeltetését és optimalizálását, a felhő üzemeltetési szolgáltatásunkban ez is benne van: rendszeres auditok, proaktív monitoring, és a cost optimalizálás mint folyamatos feladat – nem egyszeri projekt.

Összefoglalás

A felhőköltség-optimalizálás nem egyszeri projekt, hanem folyamatos üzemeltetési feladat. A legtöbb megtakarítási lehetőség nem komplex architektúrális változtatást igényel – elegendő rendszeresen végigmenni a 10 leggyakoribb ponton, és megtenni az azonnali lépéseket.

Ahhoz hasonlóan, ahogy egy szerver monitoring rendszer folyamatosan figyeli az infrastruktúra egészségét, a cost optimalizálásnak is folyamatosnak kell lennie. Nem elegendő egyszer megnézni – az infrastruktúra változik, új erőforrások kerülnek be, régi projektek maradnak bent. A rendszeres átnézés az egyetlen módja annak, hogy a számla ne csússzon ki a kontroll alól.

A legdrágább dolog, amit tehetsz: nem nézni utána.

Töltsd le az ingyenes ellenőrzőlistát, és derítsd ki 10 perc alatt, fizetsz-e feleslegesen →