Vadinamuosius argumentuojančius AI modelius kurti tampa lengviau ir pigiau.
Penktadienį NovaSky, mokslininkų komanda iš UC Berkeley Sky Computing Lab, išleido Sky-T1-32B-Preview – samprotavimo modelį, kuris konkuruoja su ankstesne OpenAI o1 versija daugeliu pagrindinių etalonų. Panašu, kad „Sky-T1“ yra pirmasis tikrai atvirojo kodo samprotavimo modelis ta prasme, kad jį galima atkartoti nuo nulio; komanda išleido duomenų rinkinį, kurį naudojo jai treniruoti, taip pat reikalingą mokymo kodą.
„Pastebėtina, kad „Sky-T1-32B-Preview“ buvo apmokytas už mažiau nei 450 USD“, – tinklaraščio įraše rašė komanda, „parodant, kad galima nebrangiai ir efektyviai atkartoti aukšto lygio samprotavimo galimybes“.
450 USD gali atrodyti ne taip įperkamai. Tačiau ne taip seniai kaina už panašaus našumo modelio mokymą dažnai siekė milijonus dolerių. Sintetiniai treniruočių duomenys arba kitų modelių generuoti mokymo duomenys padėjo sumažinti išlaidas. Teigiama, kad dirbtinio intelekto bendrovės „Writer“ neseniai išleistas „Palmyra X 004“ modelis, sukurtas beveik vien tik sintetiniais duomenimis, kainavo tik 700 000 USD.
Skirtingai nuo daugelio dirbtinio intelekto, samprotavimo modeliai veiksmingai patikrina faktus, o tai padeda jiems išvengti kai kurių spąstų, kurie paprastai suklumpa modelius. Samprotavimo modeliai užtrunka šiek tiek ilgiau – paprastai nuo sekundžių iki minučių ilgiau –, kad būtų rasti sprendimai, palyginti su įprastu nemotyvuojančiu modeliu. Kita vertus, jie yra patikimesni tokiose srityse kaip fizika, mokslas ir matematika.
„NovaSky“ komanda teigia, kad pradiniams „Sky-T1“ treniruočių duomenims generuoti naudojo kitą samprotavimo modelį – „Alibaba“ QwQ-32B-Preview, tada „kuravo“ duomenų mišinį ir panaudojo OpenAI GPT-4o-mini, kad duomenis paverstų daugiau. veikiantis formatas. 32 milijardų parametrų Sky-T1 mokymas užtruko apie 19 valandų, naudojant 8 Nvidia H100 GPU stovą. (Parametrai apytiksliai atitinka modelio problemų sprendimo įgūdžius.)
„NovaSky“ komandos teigimu, „Sky-T1“ veikia geriau nei ankstesnė o1 peržiūros versija MATH500, „konkurencinių“ matematikos iššūkių rinkinys. Modelis taip pat pranoksta o1 peržiūrą dėl sudėtingų „LiveCodeBench“ – kodavimo įvertinimo – problemų rinkinio.
Tačiau „Sky-T1“ neatitinka GPQA-Diamond o1 peržiūros, kurioje pateikiami su fizika, biologija ir chemija susiję klausimai, kuriuos turėtų žinoti doktorantas.
Taip pat svarbu pažymėti, kad OpenAI GA leidimas o1 yra stipresnis modelis nei peržiūros o1 versija, ir tikimasi, kad ateinančiomis savaitėmis OpenAI išleis dar geresnio našumo samprotavimo modelį o3.
Tačiau „NovaSky“ komanda teigia, kad „Sky-T1“ tik pradeda kurti atvirojo kodo modelius su pažangiomis samprotavimo galimybėmis.
„Žiūrėdami į priekį, mes sutelksime dėmesį į efektyvesnių modelių, palaikančių tvirtą argumentavimo našumą, kūrimą ir pažangių metodų, kurie dar labiau padidina modelių efektyvumą ir tikslumą bandymo metu, kūrimą“, – pranešime rašė komanda. „Sekite naujienas, kai darome pažangą įgyvendindami šias įdomias iniciatyvas.