Stiže Megatron: Microsoft i Nvidia grade masivni jezički procesor

13. 10. 2021.12. 10. 2021. Tijana Barašević

Nvidia i Microsoft najavili su svoj najveći monolitni transformer language model do sada.

MT-NLG je zver koja se hrani sa preko 4.000 grafičkih procesora

To je AI model sa ogromnih 530 milijardi parametara koje su zajedno razvili, nazvan Megatron-Turingov model generisanja prirodnog jezika. MT-NLG je moćniji od prethodnih sistema zasnovanih na transformatorima koje su obučavale obe kompanije, naime Microsoftov model Turing-NLG i Nvidijin Megatron-LM. Sačinjen od tri puta više parametara raspoređenih po 105 slojeva, MT-NLG je mnogo veći i složeniji. Poređenja radi, OpenAI-jev GPT-3 model ima 175 milijardi parametara, a Google-ov demo Switch Transformer ima 1,6 triliona parametara. Veće je generalno bolje kada su u pitanju neuronske mreže. Od njih se traži da unose više podataka o obuci.

MT-NLG je bolji u širokom spektru zadataka prirodnog jezika, kao što su automatsko dovršavanje rečenica, postavljanje pitanja i odgovaranje, čitanje i zaključivanje. Takođe može da izvršava ove zadatke sa malo ili bez finog podešavanja, nešto što se naziva few-shot ili zero shot učenje. Kako ti jezički modeli postaju sve veći, istraživači i inženjeri veštačke inteligencije moraju smisliti sve vrste tehnika i trikova za njihovo obučavanje. Ono zahteva pažljivu koordinaciju: model i njegovi podaci o obuci moraju biti uskladišteni i obrađeni na brojnim čipovima istovremeno.

Pročitajte i: Windows 11 i funkcija video pozadina

MLT-NLG je obučavan pomoću Nvidijinog superračunara Selene za mašinsko učenje, sistema sačinjenog od 560 DGX A100 servera sa svakim serverom koji sadrži osam A100 80GB GPU-a. Selene takođe pokreću AMD-ovi EPIC 7v742 CPU procesori i procenjuje se da će koštati preko 85 miliona dolara. Svih 4.480 grafičkih procesora koristi NvLink i NvSwitch za međusobno povezivanje. Svaki je bio sposoban da obradi preko 113 teraFLOP-ova u sekundi. Obučavanje ovih modela je neverovatno skupo, pa čak i ako rade na vrhunskom hardveru, potrebni su softverski hakovi kako bi se skratilo vreme obuke. Nvidia i Microsoft su koristili DeepSpeed, biblioteku za duboko učenje koja sadrži PiTorch kod koji je inženjerima omogućio da paralelno gomilaju više podataka na brojne kanale.

MT-NLG je obučavan na ogromnom skupu podataka poznatom kao The Pile. Sastavila ga je Eleuther AI, grupa istraživača i inženjera veštačke inteligencije koji preduzimaju velike napore ka otvaranju velikih jezičkih modela otvorenog koda, a sastoji se od više manjih skupova podataka u ukupnom iznosu od 825 GB teksta skinutog sa interneta iz izvora kao što su Wikipedija, skladišta akademskih časopisa, i isečci vesti. Suočavanje sa tako velikim količinama teksta znači da se skup podataka ne može očistiti od toksičnog jezika. Nažalost, to znači da MT-NLG može generisati uvredljive rezultate koji mogu biti rasistički ili seksistički. Microsoft i NVIDIA posvećeni su radu na rešavanju ovog problema.

Pročitajte i: Evropska komisija prihvatila Microsoft-ove ustupke za Teams

Izvor: Theregister

Facebook komentari: