Velika dobit od velikih podataka
Nekada smo priželjkivali sisteme koji mogu da uskladište mnogo podataka, a kada su ti sistemi stigli, videli smo da mnogo podataka donosi i mnogo problema. Srećom, ugledali smo i rešenja: Big Data koncept je u velikom zamahu, kao tehnologija koja brzo donosi pozitivne rezultate na svim poljima gde se primenjuje.
U šumi informacija kojima smo u moderno vreme zatrpani ima zanimljivih, beskorisnih, ali i podataka koji su od suštinske važnosti za naš posao. Da stvar bude još teža, sve te informacije su u najvećem broju slučajeva nestrukturirane, pa pronalaženje korisnog sadržaja, njegovo upoređenje i analiza predstavljaju velike izazove. Zato je već nekoliko godina Big Data velika tema u svetu informatike. To više nije samo još jedan bombastični pojam, već realna potreba koja će, kako se predviđa, u narednim godinama sve više dobijati na značaju.
A koliko je to „više“? Postoje razni pokazatelji i razna istraživanja koja se, kada se gledaju samo brojevi, manje ili više razlikuju, ali se u jednom se slažu: količina informacija koja je stigla do korporativnih servera ili do velikih i javno dostupnih skladišta podataka, među koje uvrštavamo i socijalne medije, rašće po godišnjoj stopi od oko 50 odsto. Ako vam se to i ne čini tako mnogo, slikovitosti radi napravićemo sledeću računicu. Zamislite da ove godine primite 1000 korisnih e‑mail poruka – za samo pet godina po ovoj stopi primićete u toku 12 meseci pet puta više mejlova, a cela baza biće 13 puta veća od skladišta prve godine. A kako imamo dobar običaj čuvanja svih e‑mail‑ova jer se nikad ne zna šta može da zatreba, ispostavlja se da relativno brzo pronalazimo informacije iz prve, možda i druge godine, dok je peta godina toliko pretrpana da će šansa da nešto veoma važno propustimo porasti do granica koje su kritične za dobro obavljanje posla.
Tehnologije koje se razvijaju pod okriljem široko postavljenog Big Data koncepta u tom trenutku dolaze na svoje – na ličnom planu za nekoliko godina, a na korporativnom već danas. Na sajtu DataScienceSeries.com, koji je posvećen ovoj temi, možete da pronađete sijaset korisnih informacija, a nama je privuklo pažnju razmatranje o poslovnim oblastima u kojima Big Data donosi velike prednosti.
Instant dobici
Na prvo mesto je stavljena mogućnost kvalitetnijeg dijaloga s kupcima. Zahvaljujući Internetu, pre nego što krenemo u kupovinu rado prelistamo sajtove prodavaca, razgledamo proizvode, cene, uslove prodaje, pa se na kraju odlučimo da obiđemo dve‑tri prodavnice, kako bismo se se na licu mesta uverili u ono što smo ranije saznali i najzad odabrali pravi proizvod. Zamislite sada koliki se potencijal u prodaji otvara ako prodavac ima mogućnost da u sekundi, na osnovu samo par informacija dobijenih od vas, sazna kojoj kategoriji kupaca pripadate, šta obično tražite od robe i usluga, pa vam pored proizvoda koji vas interesuje skrene pažnju na još neke, vama takođe zanimljive i prihvatljive. Da takav pristup donosi dodatnu prodaju, a samim time i zaradu, dobar primer je sajt Amazon koji je među prvima uveo analizu „velikih podataka“ u ovoj oblasti. Iz Internet prodavnice koja je počela od knjiga i stigla do svega i svačega, kažu da su uvođenjem sekcija na stranici sajta „oni koji su pogledali ovo, pogledali su i…“ i „možda vas interesuje i…“ povećali prodaju za čak 20 odsto. Impozantan rast!
Pitanja šta kupci traže od proizvoda i kakvi su kriterijumi poređenja konkurentskih artikala su ključ na osnovu koga proizvođači preciznije dizajniraju proizvode. Izvori podataka za ove analize su u najvećoj meri skriveni na socijalnim mrežama, bilo kroz analizu tokova traženja informacija, mada je malo sumnjivo kako do tih podataka može potpuno legalno da se stigne, bilo kroz analizu komentara ostavljenih na stanicama proizvođača ili u adekvatnim grupama. Niko se za sada ne hvali koliko im je to pomoglo u prodaji ili optimizaciji proizvodnje, ali zna se da gotovo svi najveći svetski proizvođači uveliko koriste ili su u toku implementacije Big Data tehnologije na ovom polju.
Pronalaženje novih kanala za povećanje prihoda je još jedan očigledan način da „velike podatke“ upregnete u cilju boljeg poslovanja. Dobar primer za to je Shazam, mobilna aplikacija za pronalaženje muzike na Internetu. Autori su prikupili nepersonalizovane podatke o kretanjima interesovanja za određene autore i muzičke pravce, upotpunili ih podacima o lokaciji s koje su pretrage pokrenute i tako dobijene rezultate ponudili glavnim igračima u svetu muzičke industrije. Za njihove analize kretanja na sceni popularne muzike vladalo je veliko interesovanje i danas je Shazam jedan od najvažnijih izvora na osnovu kojih se razvijaju strategije poslovanja velikih muzičkih izdavača. Niko ne kaže koliko se zaradilo, ali Shazam i dalje investira u ovu oblast, po čemu zaključujemo da se radi o unosnom dodatnom poslu.
Nemojte misliti kako je Big Data samo od koristi za sticanje profita – veliki dobici mogu da se ostvare i za celokupnu zajednicu. Tako je korišćenjem ovih tehnologija Oslo, gde je noć tokom šest meseci duga i preduga, uspeo da uštedi čak 62 odsto energije za rasvetu grada, policija Memfisa kaže da je korišćenjem prediktivne analize smanjila kriminal za 30 odsto, a u španskom Rivas‑Vasijamadridu ostvarene su uštede u energiji od 35 odsto.
Big Data tehnologija je velika uzdanica naučnika da će napokon uspeti da ostvare jedan od velikih snova čovečanstva – da borbu protiv danas neizlečivih bolesti kao što su kancer ili multipla skleroza učine lakšom, uspešnijom i pristupačnijom. Već dugo vremena se zna da su ove bolesti u velikoj meri određene genetskim materijalom koji svi nosimo. Genetski kod živih bića je dešifrovan i postoje načini da se za svakog od nas napravi genetska mapa. Sada i sami možete da zamislite koliko je to podataka, a još ako njima pridodate ne manje važne – životnu sredinu, druge hronične i akutne bolesti, navike ili ishranu pacijenta, biblioteka se višestruko uvećava. Danas za veliki broj ovih bolesti postoje uspešni lekovi, ali ne postoji način da se odmah zna koji od njih će u datom slučaju najefikasnije delovati, tako da se u terapiji primenjuje metoda pogotka i pogreške i tako se, neretko, do najefikasnijeg leka stiže posle višemesečnih bezuspešnih pokušaja da se pronađe optimalni medikament, a tada je obično kasno. Primenom Big Data tehnologija otvara se mogućnost da se svakom pacijentu još na samom početku lečenja odredi efikasna terapija; danas se to već naziva personalizovanom medicinom.
Alat za novi zanat
Od 2009. godine razvoj Big Data tehnologija je silovit i svi najveći proizvođači hardvera i softvera su se uključili u igru. Konkurencija raste svakim danom, što može samo da raduje jer je to prvi korak na putu ka masovnoj pristupačnosti tehnologije. Ako tome još dodamo i cloud kao mesto gde će se pre ili kasnije, ali sigurno ne u previše dalekoj budućnosti, pojaviti brojni servisi za prediktabilnu analizu nestrukturiranih podataka koji će postati pravo ishodište za mala i srednja preduzeća, onda nam sve ove stvari postaju još interesantnije. Na žalost nas malih i ne baš dovoljno bogatih skoro sve što se nudi izgleda basnoslovno skupo. S druge strane, za velike ili ne baš tako velike, ali hrabre i napredne, Big Data tehnologije nisu nedostupne. Štaviše, na primerima koje smo gore naveli vidi se da brzina povratka uloženih sredstava može da bude velika i da se samo za godinu, eventualno dve, ostvari „čist dobitak“.
Osnova oko koje se danas okreće Big Data tehnologija u velikoj meri jeste Apache Hadoop open source platforma optimizovana za rad s velikim količinama nestrukturiranih podataka. Početak razvoja se vezuje za 2005. godinu. Tvorci su Doug Cutting i Mike Cafarella, a prvobitna ideja je bila da se razvije neophodna platformska podrška za Nutch, projekat za pretragu podataka koji se, takođe, razvija pod okriljem Apache Software Foundation. Danas se Hadoop, pored open source inkarnacije, distribuira i kroz nekoliko komercijalnih paketa. O svemu više možete da nađete na Apache sajtu. Postoji i nekoliko drugih rešenja, ali tek treba da se izbore za mesto na tržištu. Hadoop je globalno prisutan, a dokaz je to što više od pola kompanija na Fortune Top 50 listi koristi upravo ovo rešenje.
Hadoop je dizajniran tako da na relativno jeftinom hardveru orkestrira masivno paralelno procesiranje podataka. Ovih jeftinih računara‑čvorova pod Hadoop‑om može da bude i nekoliko stotina pa čak i hiljada, uz kontrolni sistem koji obezbeđuju maksimalnu pouzdanost i dostupnost. Sami serveri nisu ništa drugo do obične x86 serverske mašine koje koštaju od 2.500 dolara naviše. Jedan tipičan DataNode server spakovan je u 2U rack kućište i ima Intel Sandy Bridge ili Ivy Bridge CPU sa više, čak do 12, procesora, a svaki od njih je praćen sa 64 do 128 GB RAM‑a. Tu je još i 12 3,5‑inčnih diskova od 2 ili 3 TB u JBOD konfiguraciji.
Kako je interesovanje za Big Data raslo tako su počeli da se pojavljuju Big Data Hadoop uređaji, što nije ništa drugo nego neophodan hardver zapakovan u jedan rack, uključujući servere, svičeve, storage i sve to sa preinstaliranim, pretkonfigurisanim i testiranim softverom. Proširenje sistema lako se izvodi – samo dodate još jedan rek i vežete ga u klaster. Pa potom još jedan i još jedan, sve dok ne zadovoljite potrebe. Pre oko dve godine prvi je na tržište ovakvu „krckalicu za velike podatke“ izbacio EMC kroz svoju Greenplum diviziju, a za njim su na isti kolosek odmah uskočili Oracle, Terradata, IBM Microsofti. Danas su tu još Cisco, Dell, HP, Supermicro, Cray, SGI i SeaMicro iza kojeg stoji AMD. Naravno, tu je i cela plejada drugih mnogo manje poznatih proizvođača. I svi oni koriste Intel x86 platformu, osim Cray‑a i SGI‑a, što je razumljivo jer poseduju sopstvene hardverske platforme, odnosno SeaMicro‑a, gde je AMD u glavnoj ulozi.
Priča ne bi bila zaokružena ako ne bismo pomenuli cene. One zavise od konkretne konfiguracije, pre svega instalirane procesorske snage, količine memorije i kapaciteta diskova, ali možemo reći da Oracle Big Data Appliance X4‑2 u tipičnoj konfiguraciji za pun rek i uz sav neophodan softver košta oko pola miliona dolara.
To je mašina po ukusu najzahtevnijih korisnika, ali postoji i niz manje moćnih konfiguracija i rešenja koja su sagrađena od jeftinijih tehnologija pa je i cena znatno manja. Na kraju krajeva, Hadoop i ne košta mnogo. Nekoliko hiljada dolara za platformu, nešto više za servere i skladišta podataka vode nas ka donjoj granici koja ne zvuči tako nedostižno. Jer, podaci stalno dolaze, treba ih prikupiti, uskladištiti i analizirati…
Milan Bašić
(Objavljeno u časopisu PC#211)