Stiže Megatron: Microsoft i Nvidia grade masivni jezički procesor

13. 10. 2021.12. 10. 2021. Tijana Barašević

Nvidia i Microsoft najavili su svoj najveći monolitni transformer language model do sada.

MT-NLG je zver koja se hrani sa preko 4.000 grafičkih procesora

To je AI model sa ogromnih 530 milijardi parametara koje su zajedno razvili, nazvan Megatron-Turingov model generisanja prirodnog jezika. MT-NLG je moćniji od prethodnih sistema zasnovanih na transformatorima koje su obučavale obe kompanije, naime Microsoftov model Turing-NLG i Nvidijin Megatron-LM. Sačinjen od tri puta više parametara raspoređenih po 105 slojeva, MT-NLG je mnogo veći i složeniji. Poređenja radi, OpenAI-jev GPT-3 model ima 175 milijardi parametara, a Google-ov demo Switch Transformer ima 1,6 triliona parametara. Veće je generalno bolje kada su u pitanju neuronske mreže. Od njih se traži da unose više podataka o obuci.

MT-NLG je bolji u širokom spektru zadataka prirodnog jezika, kao što su automatsko dovršavanje rečenica, postavljanje pitanja i odgovaranje, čitanje i zaključivanje. Takođe može da izvršava ove zadatke sa malo ili bez finog podešavanja, nešto što se naziva few-shot ili zero shot učenje. Kako ti jezički modeli postaju sve veći, istraživači i inženjeri veštačke inteligencije moraju smisliti sve vrste tehnika i trikova za njihovo obučavanje. Ono zahteva pažljivu koordinaciju: model i njegovi podaci o obuci moraju biti uskladišteni i obrađeni na brojnim čipovima istovremeno.

Pročitajte i: Microsoft: „Ruski hakeri i dalje napadaju naše sisteme“

MLT-NLG je obučavan pomoću Nvidijinog superračunara Selene za mašinsko učenje, sistema sačinjenog od 560 DGX A100 servera sa svakim serverom koji sadrži osam A100 80GB GPU-a. Selene takođe pokreću AMD-ovi EPIC 7v742 CPU procesori i procenjuje se da će koštati preko 85 miliona dolara. Svih 4.480 grafičkih procesora koristi NvLink i NvSwitch za međusobno povezivanje. Svaki je bio sposoban da obradi preko 113 teraFLOP-ova u sekundi. Obučavanje ovih modela je neverovatno skupo, pa čak i ako rade na vrhunskom hardveru, potrebni su softverski hakovi kako bi se skratilo vreme obuke. Nvidia i Microsoft su koristili DeepSpeed, biblioteku za duboko učenje koja sadrži PiTorch kod koji je inženjerima omogućio da paralelno gomilaju više podataka na brojne kanale.

MT-NLG je obučavan na ogromnom skupu podataka poznatom kao The Pile. Sastavila ga je Eleuther AI, grupa istraživača i inženjera veštačke inteligencije koji preduzimaju velike napore ka otvaranju velikih jezičkih modela otvorenog koda, a sastoji se od više manjih skupova podataka u ukupnom iznosu od 825 GB teksta skinutog sa interneta iz izvora kao što su Wikipedija, skladišta akademskih časopisa, i isečci vesti. Suočavanje sa tako velikim količinama teksta znači da se skup podataka ne može očistiti od toksičnog jezika. Nažalost, to znači da MT-NLG može generisati uvredljive rezultate koji mogu biti rasistički ili seksistički. Microsoft i NVIDIA posvećeni su radu na rešavanju ovog problema.

Pročitajte i: NVIDIA i Ubisoft zajedno rade na razvoju AI baziranih NPC-a

Izvor: Theregister

Facebook komentari:

Možda će vas zanimati:

Tagovi: Microsoft, Nvidia

Izumeli su toplu vodu. Zamisli žene ne mogu da rade kao muškarci, ali mogu da primaju istu platu

Bravo Kavčiću! Treba ukinuti sve izdavače! Leglo korupcije preko grbače roditelja koji skupo plaćaju udžbenike. Nacionalni prosvetni savet sastavljen od…