Proslavljena AI naučila je novi trik: kako se baviti hemijom
Veštačka inteligencija je promenila način na koji se radi nauka tako što je omogućila istraživačima da analiziraju ogromne količine podataka koje generišu savremeni naučni instrumenti.
Ova sposobnost bi mogla da otvori nove mogućnosti u medicini
Može da pronađe iglu u milion plastova sena informacija i, koristeći duboko učenje, može da uči iz samih podataka. AI ubrzava napredak u lovu na gene, medicini, dizajnu lekova i stvaranju organskih jedinjenja. Duboko učenje koristi algoritme, često neuronske mreže koje su obučene na velikim količinama podataka, za izdvajanje informacija iz novih podataka. Veoma se razlikuje od tradicionalnog računarstva koje koristi korak-po-korak uputstva Umesto toga, duboko učenje je učenje iz podataka. Manje je transparentno od tradicionalnog kompjuterskog programiranja, ostavljajući važna pitanja – šta je sistem naučio, šta zna? Kada profesor hemije osmišljava testove koji imaju bar jedno teško pitanje koje proširuje znanje učenika, to je da bi utvrdio da li mogu da kombinuju različite ideje i sintetizuju nove ideje i koncepte. Takvo pitanje je osmišljeno za AlphaFold, koji je rešio problem savijanja proteina.
Protein folding
Proteini su prisutni u svim živim organizmima. Oni daju ćelijama strukturu, katalizuju reakcije, transportuju male molekule, vare hranu i rade još mnogo toga. Sastoje se od dugih lanaca aminokiselina kao perle na kanapu. Ali da bi protein obavio svoj posao u ćeliji, on mora da se uvrne i savije u složenu trodimenzionalnu strukturu, proces koji se naziva savijanje proteina. Pogrešno savijeni proteini mogu dovesti do bolesti. U svom govoru o prihvatanju Nobelove nagrade za hemiju 1972. godine, Kristijan Anfinsen je pretpostavio da bi trebalo biti moguće izračunati trodimenzionalnu strukturu proteina iz redosleda njegovih gradivnih blokova, aminokiselina. Kao što redosled i razmak između slova u ovom članku daju smisao i poruku, tako i redosled aminokiselina određuje identitet i oblik proteina, što rezultira njegovom funkcijom. Zbog inherentne fleksibilnosti gradivnih blokova aminokiselina, tipičan protein može imati 30010 različitih oblika.
Ovo je ogroman broj, veći od broja atoma u univerzumu. Ipak, u roku od jedne milisekunde svaki protein u organizmu će se saviti u svoj specifičan oblik – najnižeenergetski raspored svih hemijskih veza koje čine protein. Promenite samo jednu aminokiselinu u stotinama aminokiselina koje se obično nalaze u proteinu i može se pogrešno sklopiti i više neće raditi. Za manje od pet godina AlphaFold je prevazišao problem savijanja proteina – barem njegov najkorisniji deo, naime, određivanje strukture proteina iz njegove aminokiselinske sekvence. AlphaFold ne objašnjava kako se proteini savijaju tako brzo i tačno. Bila je to velika pobeda za veštačku inteligenciju, jer ne samo da je stekla ogroman naučni prestiž, već je bila i veliki naučni napredak koji je mogao uticati na svačije živote. Danas, zahvaljujući programima kao što su AlphaFold2 i RoseTTAFold, istraživači mogu da odrede trodimenzionalnu strukturu proteina iz niza aminokiselina koje čine protein – besplatno – za sat ili dva.
Pre AlphaFold2 morali smo da kristalizujemo proteine i rešimo strukture koristeći rentgensku kristalografiju, proces koji je trajao mesecima i koštao je desetine hiljada dolara po strukturi. Sada takođe imamo pristup bazi podataka o strukturi proteina AlphaFold, gde je Deepmind deponovao 3D strukture skoro svih proteina pronađenih kod ljudi, miševa i više od 20 drugih vrsta. Do danas su rešili više od milion objekata i samo ove godine planiraju da dodaju još 100 miliona objekata. Znanje o proteinima je naglo poraslo. Struktura polovine svih poznatih proteina će verovatno biti dokumentovana do kraja 2022. godine, među njima i mnoge nove jedinstvene strukture povezane sa novim korisnim funkcijama.
Razmišljati kao hemičar
AlphaFold2 nije dizajniran da predvidi kako će proteini međusobno komunicirati, ali je bio u stanju da modelira kako se pojedinačni proteini kombinuju da bi formirali velike kompleksne jedinice sastavljene od više proteina. Imali smo izazovno pitanje za AlphaFold – da li ga je njegov set za strukturnu obuku naučio hemiji? Može li reći da li će aminokiseline reagovati jedna na drugu – retka, ali važna pojava? U bazi podataka proteina postoji 578 fluorescentnih proteina, od kojih je 10 „slomljenih“ i ne fluoresciraju. Proteini retko napadaju sami sebe, proces koji se naziva autokatalitička modifikacija posttranslacije, i veoma je teško predvideti koji će proteini reagovati sami sa sobom, a koji neće.
Samo hemičar sa značajnom količinom znanja o fluorescentnim proteinima mogao bi da koristi sekvencu aminokiselina da pronađe fluorescentne proteine koji imaju pravu sekvencu aminokiselina da bi se podvrgli hemijskim transformacijama potrebnim da bi postali fluorescentni. Kada su AlphaFold2 predstavljene sekvence od 44 fluorescentna proteina koji se ne nalaze u bazi podataka proteina, on je savio fiksne fluorescentne proteine drugačije od slomljenih.
Rezultat je zapanjio naučnike: AlphaFold2 je naučio nešto hemije. Otkrilo je koje aminokiseline u fluorescentnim proteinima imaju hemiju koja ih čini sjajnim. Pretpostavljamo da set za obuku baze podataka proteina i višestruka poravnanja sekvenci omogućavaju AlphaFold2 da „razmišlja“ kao hemičari i traži aminokiseline potrebne da reaguju jedna sa drugom kako bi protein fluorescentan.
Preklopni program učenja neke hemije iz svog seta za obuku takođe ima šire implikacije. Postavljanjem pravih pitanja, šta se još može dobiti od drugih algoritama dubokog učenja? Da li algoritmi za prepoznavanje lica mogu pronaći skrivene markere za bolesti? Da li bi algoritmi dizajnirani da predvide obrasce potrošnje takođe mogli da pronađu sklonost manjoj krađi ili obmani? I što je najvažnije, da li je ova sposobnost – i slični skokovi u sposobnostima u drugim sistemima veštačke inteligencije – poželjna?
Izvor: Thenextweb