Oblak od memorijske pene
Bitna tehnološka komponenta svih cloud rešenja jesu storage serveri pred koje se postavlja težak zadatak bezbednog i pouzdanog čuvanja enormne količine podataka koji treba da budu uvek brzo dostupni kako bi cloud koncept uopšte mogao da funkcioniše
Kada bi neko iz ne tako davne prošlosti mogao da virne u kristalnu kuglu i osmotri glad za podacima koja karakteriše današnji svet, bio bi sasvim sigurno poprilično šokiran. Na stranu Moore‑ov zakon i sve ostalo, slike hard‑diskova velikih poput ormana iz druge polovine dvadesetog veka stoje u oštrom kontrastu u poređenju sa, za nekoliko redova veličine većim kapacitetom memorijskih kartica koje danas nemarno nosimo po džepovima i to nikoga ne ostavlja ravnodušnim.
Prvo pitanje je otkud tolika potražnja za podacima i šta to ovaj svet uopšte skladišti u tolikim količinama, a drugo u kom smeru se sve to kreće i gde će i kada će se zaustaviti. Na prvo pitanje lako je odgovoriti – pogledajte samo svoj Gmail nalog, virtuelni disk, svoj Facebook feed, YouTube kanal – pokušajte da procenite koliko ste podataka upload‑ovali, primili na mejl, uskladištili na neki drajv u oblaku u poslednje vreme, čak i ako ste „običan“ prosečan korisnik ovih popularnih servisa.
Zatim se prisetite da sve što jednom uđe tamo negde, obično tamo ostaje… pa, zauvek. Sad to pomnožite sa brojem „običnih“ korisnika na ovom svetu i nećete morati ni da mislite o bankama, vladinim institucijama, naučnim centrima i svim drugim profesionalnim korisnicima koji takođe imaju ogromne zahteve u pogledu obrade i čuvanja podataka, a ipak će vam biti jasno o koliko ogromnim brojkama se radi. Na drugo pitanje znatno je teže dati odgovor.
Poplava bajtova
Prema nekim procenama, zaključno sa 2015. godinom, u čitavom svetu u enterprajz sektoru bilo je angažovano oko 60.000 PB prostora za skladištenje podataka. Da podsetimo, jedan petabajt (PB) je hiljadu puta (tj. 1024 puta, da budemo precizniji) veći od jednog terabajta (TB). Prevedeno u prosečne hard‑diskove od 1 TB, u enterprajz aplikacijama globalno je angažovan ekvivalent od oko 60 miliona komada. Impresivno?
Uz osvrt na gorepomenutu priču i pomisao na to koliko ljudi širom sveta danas generiše kojekakve podatke možda i nije toliko impresivno – sud prepuštamo vama. Google je još 2009. obrađivao u proseku 24 PB podataka dnevno, Microsoft je objavio da je u trenutku prelaska sa Hotmail‑a na Outlook.com 2013. migrirao preko 150 PB korisničkih podataka, a Megaupload je još 2012. skladištio oko 28 PB korisničkih fajlova. Facebook je još pre tri godine imao nekih 357 PB samo slika, a tek koliko da se zapitate šta rade sa svim tim podacima, još 2012. je najveća društvena mreža obezbedila 100 petabajta prostora za potrebe data mining‑a dok Yahoo čuva 2 PB informacija samo o ponašanju korisnika.
Moderna nauka takođe vapi za storage-om – Nemački centar za praćenje klimatskih promena (DKRZ) ima oko 60 PB podataka o globalnoj klimi naše planete, a obelodanjeno je i da je Veliki hadronski sudarač u CERN‑u, zaključno sa 2012. godinom, nagomilao oko 200 PB podataka beležeći sudare čestica u potrazi za Higsovim bozonom. Čak i video‑igrice zahtevaju veliki storage, pa tako popularni World of Warcraft ima kapacitet od oko 1,3 petabajta.
Prognoze kažu da će ove brojke nastaviti da rastu, pa se predviđa da će do 2020. u enterprajz sektoru biti angažovano i do 40 ZB. ZB? Jedan zetabajt ima milion petabajta (dobro de, 1024×1024 = 1.048.576 petabajta), a to je već neverovatno po svakom kriterijumu!
Rešenja za skladištenje podataka čine danas najveću pojedinačnu stavku u izdacima za hardver jer čine oko 60 odsto budžeta namenjenog hardveru i čak 10 odsto ukupnog IT budžeta u enterprajz sektoru.
Kako održati korak?
Rast potražnje za prostorom za skladištenje trenutno je takav da nadmašuje projektovani rast povećavanje gustine storage servera, pa da bi se odgovorilo na ove uvećane zahteve, mora doći i do povećanja svih pratećih troškova storage-a. Ako se uporedi tipična serverska konfiguracija tokom prethodnih petnaestak godina, može se videti da su performanse svih relevantnih sistemskih komponenti, poput procesora, memorije, mrežnog interfejsa ili magistrale, pratile neki koliko‑toliko ravnomeran rast. Procesor nije preko noći od Pentium‑a 1 postao Nehalem baš kao što ni mrežni interfejs nije od 100‑megabitnog Ethernet-a odjednom skočio na 10 ili čak 40 gigabitni Ethernet interfejs. Između ovih krajnosti bili smo svedoci evolucije kroz nekoliko iteracija sa postepeno poboljšavanim performansama.
Mediji za skladištenje podataka izuzetak su od ovog pravila jer je tipičan server dugi niz godina imao manje‑više nepromenjen klasičan 15k RPM hard‑disk, da bi tek nedavno veliki zahtevi po pitanju storage-a, kao i masovno uvođenje SSD tehnologije, u vrlo kratkom roku doveli do toga da tipičan disk postane SSD, s nekoliko stotina puta jačim performansama u odnosu na svoje dojučerašnje prethodnike.
Uprošćena predstava storage‑a kao „običnog“ servera kod koga je dominantan disk, a akcenat stavljen na njegov kapacitet i performanse, za današnje pojmove ipak je pogrešna. Vrtoglavi rast i sve veći apetiti za performansama doveli su do evolucije rešenja za čuvanje podataka koja je iznedrila nekoliko suštinski različitih generacija.
Evolucija storage rešenja
Prvi korak u razvoju storage rešenja svakako su bili računari s lokalnim storage-om. Svaki računar koji ima hard‑disk u nekom smislu je storage i to je ono što smo svi koristili i još uvek koristimo da čuvamo lične podatke. Ovde negde potpadaju i razne JBOD (Just a Bunch of Disks) koje mogu biti na tom lokalnom računaru ili eventualno na nekom mrežnom serveru, a to rešenje ima očiglednih nedostataka, jer je pouzdanost zapisa onolika kolika je pouzdanost diska na kome se podatak nalazi, što je po današnjim kriterijumima uglavnom neprihvatljivo.
Takođe, pristup podacima ograničen je na lokalni računar ili eventualno lokalnu mrežu. DAS (Direct Attached Storage) podrazumeva zasebnu celinu s diskovima koja se povezuje sa serverom putem sopstvenog interfejsa (npr. SCSI, Fiber Channel), dok klijenti s ovim serverom komuniciraju preko lokalne mreže.
Strogo gledano, već i običan eksterni hard‑disk sa USB interfejsom potpada pod ovu kategoriju, ali u užem smislu, obično se podrazumevaju malo ozbiljnija DAS rešenja kod kojih su pojedinačni diskovi povezani u redundantnu konfiguraciju radi povećanja pouzdanosti.
Tek sa pojavom NAS‑a (Network Attached Storage) dolazimo do onoga što se danas obično podrazumeva pod imenom storage. Kod ovakvih rešenja, storage je opremljen Ethernet mrežnim interfejsom kojim se povezuje direktno na lokalnu računarsku mrežu na koju su povezani i serveri i klijenti. NAS rešenja i danas pokrivaju veoma širok dijapazon od malih uređaja namenjenih SOHO segmentu tržišta sa svega jednim ili dva diska, pa do velikih enterprajz rešenja s velikim brojem diskova. Diskovi su obavezno povezani u neku od RAID (Redundant Array of Independent Disks) konfiguracija kako bi se obezbedilo da i u slučaju otkaza pojedinačnog diska ne dođe do trajnog gubitka podataka. Principi rada RAID konfiguracija, kao i strategije zamene diskova i migracije podataka, zasebna su tema, ali treba reći da se od modernih rešenja obavezno očekuje mogućnost da se neispravni diskovi mogu zameniti i da se kapacitet može proširivati bez gašenja storage servera.
Poslednja etapa u evoluciji storage-a jesu SAN (Storage Area Network) rešenja kod kojih je arhitektura zasnovana na dve odvojene i fizički različite mreže kojom se povezuju aplikativni serveri – LAN mreže kojom se ostvaruje veza s klijentima i optičke SAN mreže kojom se, s druge strane, povezuju sami storage-i. Dok prva koristi klasične Ethernet svičeve, SAN mreža zasnovana je na optičkim vlaknima i posebnim SAN svičevima. Fibre Channel mreža, kojom se povezuju serveri i storage na SAN segmentu, redundantna je mreža optičkih vlakana visokih performansi. Primenom modernih SAN rešenja postiže se poboljšano upravljanje storage‑om, snižava se cena rešenja kroz efikasniju upotrebu hardvera i poboljšava efikasnost bekapa i dostupnosti podataka. Takođe, SAN rešenja omogućavaju virtuelizaciju storage-a, što je od ključne važnosti za današnje zahteve koje nameću cloud rešenja.
Veliki i mali
Arhitektura svakog modernog storage rešenja trebalo bi da podrazumeva pre svega same diskove, povezane u RAID konfiguraciju, keš i kontrolere, kao i interkonekciju magistrala podataka između jednih i drugih i naravno ulazno/izlazne interfejse kojima se ostvaruje veza sa serverom preko FC ili Ethernet sviča. S druge strane, broj diskova, kapacitet i veličina storage-a veoma mnogo varira i zavisi od namene.
Moderne cloud aplikacije uglavnom podrazumevaju i velika enterprajz rešenja velikog kapaciteta i visokih performansi, dok su za potrebe bekapa podataka neke manje firme ili čak i privatne baze ličnih fajlova (slika, filmova) dovoljni mali mrežni serveri pristupačne cene. Doduše, ovde se odmah poteže i tema opravdanosti malih storage-a jer je čitav cloud koncept baziran na ideji deljenih online resursa visokih peformansi, ali budući da se uvođenje cloud tehnologija pokazalo kao maraton, a ne trka na sto metara, SOHO rešenja sigurno će još neko vreme biti oko nas. I sam enterprajz segment obuhvata brojna rešenja, u zavisnosti od potrebnih performansi, pa se obično izdvajaju tri podsegmenta: entry level uređaji koji su sve češće zasnovani na SSD tehnologiji, mid‑range serveri i high‑end rešenja koja zauzimaju više profesionalnih rek ormana.
Dok diskove koje čine neophodnu komponentu svakog storage rešenja proizvodi nekolicina renomiranih kompanija, broj proizvođača koji se bore na tržištu storage rešenja daleko je veći. Kao lideri izdvajaju se EMC, Hitachi Data Systems, HP, NetApp, IBM i Dell, ali i proizvođači od kojih se može očekivati da u bliskoj budućnosti preuzmu liderske pozicije, kao što su DataDirect Networks, Fujitsu, Qnap, Huawei i Oracle. Ovome treba dodati još desetak proizvođača koji još uvek nisu dostigli nivo gore pobrojanih lidera, ali su svakako vidljivi na horizontu, tako da ima podosta učesnika pa će tržišna utakmica biti zanimljiva.
Mladen Mijatović
Pročitajte još: