Szele Tamás: Az adattolvaj techóriás

Oszd meg másokkal is!

Úgy tűnik, nincs világcég, amely ne esne bele abba a csapdába, hogy a saját mesterséges intelligencia-fejlesztéseihez ne akarná felhasználni a világhálón felgyülemlett információ-mennyiséget vagy inkább: adattömeget. Mint a Meduza írja, most éppen az Nvidiáról derült ki, hogy semmibe veszi a szerzői jogokat.

Bizony, az Nvidia, a világ egyik vezető techóriása illegálisan használta fel a YouTube, a Netflix és más platformok videóit mesterséges intelligenciájának betanításához. Ezt újságírók által hozzáférhetővé tett belső dokumentumok is megerősítik. Az Nvidia alkalmazottai naponta töltötték le az adatokat – összesen mintegy 80 évnyi tartalmat. A vállalat képviselői azt állítják, hogy tevékenységük „teljes mértékben megfelel a szerzői jogi törvények betűjének és szellemének”.

A 404 Media kiadvány munkatársainak sikerült hozzáférni belső dokumentumokhoz, egy, a Slack rendszerben folytatott levelezéshez és az Nvidia alkalmazottainak e-mailjeihez. Ezekből kiderül, hogy a vállalat a YouTube-on, a Netflixen és számos más oldalon közzétett videótartalmakat használt a mesterséges intelligenciájuk képzéséhez. Ezt az információt a kiadványnak névtelensége megőrzése mellett egy volt Nvidia-alkalmazott is megerősítette.

A letöltési folyamat megszervezésére az Nvidia vezetői külön csatornát hoztak létre a Slack nevű vállalati üzenetküldőben, ahol a projektről tárgyaltak. A levelezésből kiderült, hogy a videók fő forrása a YouTube volt, bár más forrásokat is említ. A videók letöltéséhez a vállalat munkatársai egy nyílt forráskódú letöltőprogramot használták, IP-címeket frissítő virtuális gépekkel kombinálva. Ez utóbbi lehetővé tette számukra, hogy elkerüljék a YouTube figyelmét és megakadályozzák a letiltást.

Az újságírók birtokába került e-mailek 20-30 virtuális gépet említenek az Amazon Web Servicesben. Segítségükkel naponta lehetett videókat fogadni, amelyek teljes időtartama több mint 700 ezer óra, azaz mintegy 80 év volt. Ugyanakkor a levelezés nem említi a platformok és a jogtulajdonosok hivatalos engedélyeit.

A 404 Media szerint az Nvidia a megszerzett adatokat egyszerre több MI-projekthez is felhasználta. Ezek közé tartozik az Omniverse meta-univerzum-alkalmazásfejlesztési platform, a pilóta nélküli autók és a Digital Humans, egy olyan kezdeményezés, amelynek célja digitális avatárok létrehozása mesterséges intelligencia segítségével.

Az adatgyűjtés már hat hónapja zajlott. Az Nvidia nagy adatbázisokat, egyedi klipeket és Netflix-filmeket használt fel. A 404 Media újságírói által a nyomozásuk során közzétett levelezés képernyőfotói alapján az adatgyűjtési projekt 2024. február közepén indult. Belső neve Cosmos volt. Az újságírók hangsúlyozzák, hogy a kezdeményezésnek nincs köze a mélytanulásra létrehozott Cosmos Deep Learning szolgáltatáshoz.

Márciusban történt, hogy Francesco Ferroni, az Nvidia vezető kutatója csatlakozott a Slacken egy #cosmos-dataset-creation nevű csatornához. Azt írta, hogy Sanja Fidler arról beszélt neki, hogy egy „hatalmas, szervezett adatbázis” létrehozásán dolgozik a generatív modellezéshez szükséges videókból. Ferroni azt javasolta, hogy a cég kezdje azzal, hogy összegyűjti az összes olyan (belső és nyilvános) adathalmazt, amelyet már letöltött, hogy a jövőben ne kelljen duplikálni ezt a munkát.

A tudós a poszthoz csatolt egy linket is, amely egy olyan táblázatra mutat, amely több tucat videókat tartalmazó adatbázist sorol fel. Ezek között van a MovieNet (60 000 filmtrailer), az InternVid–10M (10 millió YouTube-ra feltöltött videó azonosítója) és a HD-VG–130M (130 millió YouTube-klip). Ez utóbbi adathalmazt a Pekingi Egyetem kutatói állították össze, és a licenc szerint csak tudományos célokra használható.

Az újságírók kifejtik, hogy az ilyen adathalmazok linkek vagy YouTube-azonosítók halmazaként léteznek. Maguk a videofájlok nincsenek ott, mivel ebben az esetben az adatbázis tárolása vagy terjesztése hatalmas erőforrásokat igényelne. Ráadásul ez egyfajta védekezés a tartalom illegális felhasználása ellen. Ha egy felhasználó úgy dönt, hogy törli a videóját, a videó másolata nem kerül elmentésre, és a szerző tudta nélkül nem lehet tovább használni.

A csapat már 2024 márciusában több mint 100 000 videót töltött le. Ugyanebben a hónapban az egyik alkalmazott megosztotta a csatornán az OpenAI Sora modelljének eredményét, amely szöveges kérések alapján generál videókat. Azt találgatta, hogy ezt a neurális hálózatot olyan hollywoodi filmeken képezhették ki, mint az Avatar és a Gyűrűk Ura. Ming-yu Liu ezután azt írta: „Szükségünk van egy önkéntesre, aki letölti az összes filmet”.

Egy kutató, aki a Sora-ról beszélt, figyelmeztette az alelnököt, hogy legyen nagyon óvatos Hollywooddal, mivel az negatívan viszonyul a mesterséges intelligenciához. Liu megnyugtatta, hogy a letölthető adatokat csak kísérletezésre fogják használni. A vállalat nem tervezi a publikálást, ami azt jelenti, hogy nem lesz negatív reakció. Egy korábbi Nvidia-alkalmazott elmagyarázta az újságíróknak, hogy a „publikációk” alatt kutatásokat értettek.

A csatornán időnként felmerültek az ilyen vagy olyan adatbázisok felhasználási jogaival kapcsolatos kérdések. A levelezés például a Google által gyűjtött YouTube–8M adathalmazt említi. Egy Nvidia-alkalmazott azt írta, hogy a vállalat jogi osztálya megtiltotta a felhasználását az egyik projektjében, és megkérdezte, hogy a Cosmoson belül meg lehet-e ezt tenni. „Ez egy vezetői döntés. Általános jóváhagyásunk van minden adatra” – válaszolta Ming-Yu Liu.

„Az adatgyűjtéssel kapcsolatos etikai és jogi kérdéseket felvető alkalmazottaknak azt mondták, hogy ez egy „vezetői döntés”, és hogy „általános jóváhagyásuk” van arra, hogy bármit letöltsenek, amit csak tudnak.”

Ez azt jelenti, hogy az Nvidia kutatói nem csak nagy adathalmazokkal dolgoztak. Egyikük például 2024 májusában több, egyes YouTube-csatornákra mutató linket osztott meg kollégáival, felajánlva, hogy letöltik a tartalmukat. Ezek között volt az Architectural Digest című amerikai lakberendezési és tájépítészeti magazin (6,8 millió feliratkozó) és Marques Brownlee népszerű technológiai blogger (több mint 19 millió feliratkozó) csatornái. Sanja Fidler pedig válaszul azt is javasolta, hogy az oktatási célú, például csillagászatról és orvostudományról szóló videókat is vegyék fel közéjük.

Egy bizonyos ponton Liu azt írta, hogy a csapat engedélyt kap bármilyen típusú adat feltöltésére, és megkérdezte, hogy minden tartalmat a Netflixről kellene-e letölteni. Azt is megkérdezte a munkatársaktól, hogyan lehetne ezt megvalósítani. Az alelnök szerint a képernyőfelvételek rögzítésével az Nvidia rengeteg jó minőségű, színészek arcával ellátott tartalomhoz juthatna. A rendelkezésre álló levelezésfoszlányokból nem derül ki, hogy a kezdeményezés megvalósult-e vagy sem.

Májusra a projekt résztvevőinek küldött e-mail szerint a csapat 38,5 olyan URL-címmel rendelkezett, amelyek különböző videókhoz vezettek. Ez egy táblázatot is tartalmazott, amely a már elérhető videók típusainak bontását tartalmazza. Ebből kiderült, hogy az anyagok közel 40 százaléka filmes tartalom volt.

Nem az Nvidia az első vállalat, amelyet rajtakaptak, hogy illegálisan használ fel tartalmakat a mesterséges intelligencia képzéséhez. 2024 júliusában kiderült, hogy a Runway több ezer YouTube-klipet és kalózfilmet gyűjtött illegálisan ugyanerre a célra. Nem sokkal korábban pedig kiderült, hogy az Apple és ugyanez az Nvidia, valamint több más cég több mint 170 ezer videót használt fel engedély nélkül. A mesterséges intelligencia-iparág egyik vezetőjét, az OpenAI-t is rendszeresen vádolják a tartalmak – videók és szövegek – illegális felhasználásával.

Az újságírók megkérték a Google képviselőit, hogy kommentálják a kiszivárgott információkat. A vállalat azonban azt mondta, hogy nincs mit hozzátenniük a már elmondottakhoz, és a Bloomberg egyik publikációjára hivatkoztak. Ebben Neal Mohannak, a YouTube vezérigazgatójának megjegyzését idézték, aki szerint ha az OpenAI a YouTube tartalmát használta a Sora neurális hálózat betanításához, az egyértelműen sérti a platform felhasználási feltételeit.

A Netflix szóvivője azt mondta, hogy a vállalatnak nincs megállapodása az Nvidia-val a tartalmak megosztásáról mesterséges intelligencia képzéséhez vagy más célokra. Ugyanakkor hangsúlyozta, hogy a szolgáltatás szabályai tiltják a tartalmak letöltését. Maga az Nvidia azt mondta, hogy intézkedéseik „teljes mértékben megfelelnek a szerzői jogi törvény betűjének és szellemének”.

Az Nvidia bizonyos mértékben hozzájárul a tudományos kutatáshoz. A belső alkalmazotti levelezés azonban arra utal, hogy a modell, amelyen a Cosmos csapat dolgozik, elsősorban kereskedelmi felhasználásra készült. Ming-Yu Liu például júniusban azt írta, hogy tudja, hogyan lehetne alkalmazni az eredményeket a robotika és az autonóm járművek fejlesztésében, és megkérdezte kollégáit, mit gondolnak az Omniverse-ről és a digitális avatárokról.

A kiadvány megjegyzi, hogy a szerzői joggal védett tartalmak gyűjtése terén most egy jogi szürke zónát találunk. Egyelőre nincs olyan jogi precedens vagy törvény, amely meghatározza az ilyen adatok gépi tanuláshoz való felhasználásának követelményeit. Jelenleg a szerzői jogtulajdonosok számára nehéz eldönteni, hogy az ő tartalmukat ilyen célból gyűjtötték-e össze.

Ha belegondolunk, hogy ezt az adatlopási sorozatot okos, több diplomás emberek követték el, és még ők sem tudják felfogni, hogy ami nem az övék, ahhoz nem nyúlhatnak, azt nem vehetik el… Kezdem megérteni, hogy a Tízparancsolat miért fogalmaz összesen két szóban.

„Ne lopj!”

Minden egyéb magyarázat felesleges is. Ha ugyan nem káros.

Szele Tamás

független sajtótermék

független sajtótermék

Szele Tamás: Az adattolvaj techóriás