OpenAI želi da sarađuje sa organizacijama kako bi izgradio nove skupove podataka za obuku veštačke inteligencije

16. 11. 2023.14. 11. 2023. Nenad Gajic

Kompanija navodi da će ova inicijativa rezultirati javnim i privatnim bazama podataka.

OpenAI Data Partnerships

OpenAI uvodi novi program partnerstva kako bi prikupio skupove podataka od trećih strana koje namerava da koristiti za obuku svojih AI modela. Inicijativa, poznata kao OpenAI Data Partnerships, tražiće obimne privatne i javne informacije koje, kako navodi, “nisu lako dostupne javnosti na mreži”. Kompanija navodi da prikupljeni podaci ne moraju nužno biti kvantitativni ili u tekstualnom formatu. Program će takođe prihvatiti slike, zvuk ili video zapise.

Važno je napomenuti da kompanija traži podatke o “bilo kojoj temi” i na “bilo kom jeziku”, pod uslovom da “izražavaju ljudsku nameru“. To mogu biti eseji ili transkriptovani razgovori u dugom formatu. Ljudski orijentisani podaci koje prikuplja OpenAI trebalo bi da pomognu kompaniji da poboljša alate poput svoje tehnologije automatskog prepoznavanja govora koja se koristi za transkriptovanje izgovorenih reči.

Takođe, ova inicijativa podržava nedavno proširenje ChatGPT-a. Model će podržavati glasovne upite i komuniciraće sa korisnicima na isti način na koji to radi u pisanoj formi. Izlaganjem AI modela još većem broju informacija koje ga uče kako da vodi razgovore slične ljudskima samo će dodatno poboljšati ovu model.

Pročitajte i: ChatGPT postaje društvena mreža: Stižu poruke, profili i korisnička imena

Testiranje modela sprovedeno tokom programa partnerstva za skup podataka takođe će prirodno proširiti mogućnosti GPT-4 Turbo model. Ovaj model je već ažuriran kako bi korisnicima pružio složenije i značajnije odgovore. OpenAI tvrdi da već sarađuje sa zainteresovanim organizacijama. Među organizacijama se nalaze autoritarne institucije poput islandske vlade. Kroz odabrane skupove podataka, OpenAI radi na poboljšanju sposobnosti GPT-4 da razume upite na islandskom jeziku.

Privatni i javni skup podataka

Ako privatna ili javna organizacija želi da učestvuje u programu, predstavnik može podneti formu na sajtu kompanije. Zatim je potrebno da podeli informacije o vrsti i veličini podataka koje namerava da podeli. Postoje dve varijante za skupove podataka. Prvi je Open Source arhiva, koja je idealna za skupove podataka relevantne za obuku jezičkih modela. Međutim, dokumenti napravljeni u njoj biće javni i dostupni svima.

Druga mogućnost je privatni skup podataka, koji će biti usmeren na obuku prilagođenih AI modela, uključujući njihove “osnovne modele” i “finiširane i prilagođene modele”. Druga metoda se preporučuje za kompanije ili institucije koje žele da zadrže poverljive podatke. Međutim, u istom kontekstu, OpenAI tvrdi da ne traži skupove podataka koji sadrže osetljive ili lične informacije.

Pročitajte i: OpenAI razvija novi generativni muzički alat

ChatGPT već postavlja rekorde sa svojom rastućom korisničkom bazom. Ima oko 100 miliona nedeljnih aktivnih korisnika širom sveta, što znači da će privatnost i dalje biti fokus. Ranije su zaposleni u Samsung-u bili pod istragom zbog curenja osetljivih podataka koje su otkrili modelu veštačke inteligencije. Iako OpenAI tvrdi da ne koristi podatke generisane putem svog API-ja za obuku svojih modela osim ako korisnik eksplicitno ne dostavi informacije putem formulara za prijavljivanje, sigurno je da će svi pažljivo pratiti kako kompanija postupa sa podacima prikupljenim putem ove inicijative, posebno privatnim skupovima podataka.

Izvor: Engadget

Facebook komentari: