Dvynių duomenų analizės gebėjimai nėra tokie geri, kaip teigia „Google“.

Vienas iš „Google“ pavyzdinių generuojamųjų AI modelių „Gemini 1.5 Pro“ ir „1.5 Flash“ pardavimo taškų yra duomenų, kuriuos jie tariamai gali apdoroti ir analizuoti, kiekis. „Google“ spaudos konferencijose ir demonstracinėse versijose ne kartą tvirtino, kad modeliai gali atlikti anksčiau neįmanomus uždavinius dėl savo „ilgo konteksto“, pvz., apibendrinti kelis šimto puslapių dokumentus arba ieškoti filmuotose scenose.

Tačiau nauji tyrimai rodo, kad modeliai iš tikrųjų nėra tokie geri.

Dviejuose atskiruose tyrimuose buvo tiriama, kaip „Google“ Dvynių modeliai ir kiti yra prasmingi iš didžiulio duomenų kiekio – pagalvokite, kad „karas ir taika“ veikia. Abu pastebi, kad Gemini 1.5 Pro ir 1.5 Flash sunkiai atsako į klausimus apie didelius duomenų rinkinius; vienoje dokumentais pagrįstų testų serijoje modeliai davė teisingą atsakymą tik 40 % 50 % atvejų.

„Nors tokie modeliai kaip „Gemini 1.5 Pro“ gali techniškai apdoroti ilgus kontekstus, matėme daug atvejų, rodančių, kad modeliai iš tikrųjų „nesupranta“ turinio“, – Marzena Karpinska, UMass Amherst postdoc ir viena iš autorių. tyrimų, sakė „TechCrunch“.

Turinys:

Trūksta Dvynių konteksto lango

Modelio kontekstas arba konteksto langas nurodo įvesties duomenis (pvz., tekstą), į kuriuos modelis atsižvelgia prieš generuodamas išvestį (pvz., papildomą tekstą). Paprastas klausimas – „Kas laimėjo 2020 m. JAV prezidento rinkimus? — gali būti kaip kontekstas, kaip ir filmo scenarijus, laida ar garso klipas. Didėjant konteksto langams, didėja ir juose talpinamų dokumentų dydis.

Naujausiose „Gemini“ versijose kontekste gali būti daugiau nei 2 milijonai žetonų. („Žetonai“ yra suskirstyti neapdorotų duomenų bitai, pvz., skiemenys „fan“, „tas“ ir „tic“ žodyje „fantastic“.) Tai atitinka maždaug 1,4 mln. žodžių, dvi valandas vaizdo arba 22 valandas garso. — didžiausias bet kurio komerciškai prieinamo modelio kontekstas.

Šių metų pradžioje „Google“ parodė keletą iš anksto įrašytų demonstracinių versijų, skirtų iliustruoti „Gemini“ ilgalaikių galimybių potencialą. Vienas turėjo Gemini 1.5 Pro ieškoti Apollo 11 nusileidimo Mėnulyje stenogramoje (maždaug 402 puslapių), ieškodamas citatų su pokštais, o tada televizijos laidoje rasti sceną, panašią į pieštuko eskizą.

Instruktažui vadovavęs „Google DeepMind Oriol Vinyals“ tyrimų viceprezidentas apibūdino modelį kaip „stebuklingą“.

“[1.5 Pro] atlieka tokias samprotavimo užduotis kiekviename puslapyje, kiekviename žodyje“, – sakė jis.

Tai galėjo būti perdėta.

Viename iš pirmiau minėtų tyrimų, kuriuose buvo vertinamos šios galimybės, Karpinska kartu su tyrėjais iš Alleno AI instituto ir Prinstono paprašė modelių įvertinti teisingus / klaidingus teiginius apie grožinės literatūros knygas, parašytas anglų kalba. Tyrėjai pasirinko naujausius darbus, kad modeliai negalėtų „apgauti“ pasikliaudami išankstiniu žinojimu, o teiginius papildė nuorodomis į konkrečias detales ir siužeto taškus, kurių būtų neįmanoma suprasti neperskaičius knygų.

Atsižvelgiant į tokį teiginį kaip „Naudodama savo, kaip Apoth“ įgūdžius, Nusis gali pakeisti portalo tipą, atidarytą Ronos medinėje skrynioje esančiu reagentų raktu“, „Gemini 1.5 Pro“ ir „1.5 Flash“, paėmę atitinkamą knygą, turėjo pasakyti, ar teiginys buvo teisingas, ar klaidingas, ir paaiškinti savo motyvus.

Išbandę vieną knygą, kurios ilgis buvo apie 260 000 žodžių (~ 520 puslapių), mokslininkai nustatė, kad 1.5 Pro teisingai atsakydavo į teisingus / klaidingus teiginius 46,7 % laiko, o Flash atsakydavo teisingai tik 20 % atvejų. Tai reiškia, kad moneta žymiai geriau atsako į klausimus apie knygą nei naujausias „Google“ mašininio mokymosi modelis. Vidutiniškai įvertinus visus etaloninius rezultatus, nei vienam modeliui nepavyko pasiekti didesnės nei atsitiktinės tikimybės, kalbant apie atsakymų į klausimus tikslumą.

„Pastebėjome, kad modeliams sunkiau patikrinti teiginius, dėl kurių reikia atsižvelgti į didesnes knygos dalis ar net visą knygą, palyginti su teiginiais, kuriuos galima išspręsti gavus sakinio lygio įrodymus“, – sakė Karpinska. „Kokybiškai mes taip pat pastebėjome, kad modeliams sunku patikrinti teiginius apie numanomą informaciją, kuri yra aiški skaitytojui, bet nėra aiškiai nurodyta tekste.

Antrajame iš dviejų tyrimų, kurių bendraautoriai buvo UC Santa Barbara mokslininkai, buvo išbandytas Gemini 1.5 Flash (bet ne 1.5 Pro) gebėjimas „pagrįsti“ vaizdo įrašus, ty ieškoti ir atsakyti į klausimus apie juose esantį turinį. .

Bendraautoriai sukūrė vaizdų duomenų rinkinį (pvz., gimtadienio torto nuotrauką), suporuotą su klausimais, kuriuos modelis turėjo atsakyti apie vaizduose pavaizduotus objektus (pvz., „Koks animacinio filmo personažas yra ant šio torto?“). Kad įvertintų modelius, jie atsitiktinai pasirinko vieną iš vaizdų ir prieš ir po jo įterpė „blaškančius“ vaizdus, kad sukurtų į skaidrių demonstraciją panašią filmuotą medžiagą.

„Flash“ neveikė taip gerai. Atliekant bandymą, kurio metu modelis perrašė šešis ranka rašytus skaitmenis iš 25 vaizdų skaidrių demonstravimo, „Flash“ gavo maždaug 50 % transkripcijos. Tikslumas sumažėjo iki maždaug 30% su aštuoniais skaitmenimis.

„Atrodo, kad atliekant tikras užduotis atsakyti į klausimus per vaizdus, ypač sudėtinga visiems modeliams, kuriuos išbandėme“, – „TechCrunch“ sakė Michaelas Saxonas, Santa Barbaros universiteto doktorantas ir vienas iš tyrimo bendraautorių. „Tas nedidelis samprotavimų kiekis – atpažinimas, kad skaičius yra rėmelyje ir jo skaitymas – gali sugriauti modelį.

„Google“ per daug žada „Dvyniams“.

Nė vienas iš šių tyrimų nebuvo recenzuotas ir nenagrinėja Gemini 1.5 Pro ir 1.5 Flash leidimų su 2 milijonų žetonų kontekstais. (Abu išbandė 1 milijono žetonų kontekstinius leidimus.) Ir „Flash“ našumo požiūriu nėra tokia pajėgi kaip „Pro“; „Google“ tai reklamuoja kaip pigią alternatyvą.

Nepaisant to, abu jie įpila žibalo į ugnį, kurią „Google“ nuo pat pradžių žadėjo per daug ir per mažai teikė „Dvyniams“. Nė vienas iš tyrėjų išbandytų modelių, įskaitant „OpenAI“ GPT-4o ir „Anthropic“ Claude 3.5 Sonnetą, nepasirodė gerai. Tačiau „Google“ yra vienintelis modelių tiekėjas, kuris savo skelbimuose atsiskaito kontekstinio lango viršuje.

„Nėra nieko blogo paprastame teiginyje: „Mūsų modelis gali priimti X skaičių žetonų“, remiantis objektyviomis techninėmis detalėmis“, – sakė Saxon. „Tačiau kyla klausimas, ką naudingo galite su juo padaryti?

Bendrai kalbant, generatyvusis dirbtinis intelektas yra vis labiau stebimas, nes įmonės (ir investuotojai) nusivilia technologijos apribojimais.

Neseniai atliktose Boston Consulting Group apklausose maždaug pusė respondentų – visi „C-suite“ vadovai – teigė, kad jie nesitiki, kad generatyvusis dirbtinis intelektas žymiai padidins produktyvumą ir kad jie nerimauja dėl galimų klaidų ir duomenų kompromisai, kylantys dėl generatyvių dirbtinio intelekto įrankių. Neseniai „PitchBook“ pranešė, kad du ketvirčius iš eilės generatyvaus dirbtinio intelekto sandorių sudarymas ankstyviausiuose etapuose sumažėjo ir sumažėjo 76 % nuo 2023 m. trečiojo ketvirčio piko.

Susidūrę su susitikimų apibendrinimo pokalbių robotais, kurie sukuria išgalvotas detales apie žmones ir AI paieškos platformas, kurios iš esmės prilygsta plagiato generatoriams, klientai ieško perspektyvių skirtumų. „Google“, kuri kartais nerangiai lenktyniavo siekdama pasivyti savo generatyvius AI konkurentus, labai norėjo, kad Dvynių kontekstas būtų vienas iš tų skirtumų.

Bet panašu, kad lažybos buvo per anksti.

„Nesusprendėme, kaip iš tikrųjų parodyti, kad vyksta „samprotavimas“ ar „supratimas“ dėl ilgų dokumentų, ir iš esmės kiekviena grupė, išleidžianti šiuos modelius, derina savo ad hoc evaldžius, kad galėtų pareikšti tokius teiginius“, – sakė Karpinska. . „Nežinant, kiek laiko yra įgyvendinamas konteksto apdorojimas, o įmonės nesidalija šia informacija, sunku pasakyti, kiek realūs šie teiginiai.

„Google“ neatsakė į prašymą pakomentuoti.

Tiek Saxon, tiek Karpinska mano, kad priešnuodžiai išpopuliarėjusiems teiginiams apie generatyvųjį dirbtinį intelektą yra geresni etalonai ir tuo pačiu didesnis dėmesys trečiųjų šalių kritikai. Saxon pažymi, kad vienas iš labiausiai paplitusių ilgo konteksto testų (savo rinkodaros medžiagoje „Google“ laisvai cituoja) „adata šieno kupetoje“ matuoja tik modelio gebėjimą iš duomenų rinkinių gauti tam tikrą informaciją, pvz., vardus ir numerius, bet neatsako. sudėtingus klausimus apie šią informaciją.

„Visi mokslininkai ir dauguma inžinierių, naudojantys šiuos modelius, iš esmės sutinka, kad mūsų esama etalonų kultūra yra pažeista, – sakė Saxonas, – todėl svarbu, kad visuomenė suprastų šias milžiniškas ataskaitas, kuriose pateikiami skaičiai, pvz. druskos grūdelis.”

Source link