Į sceną atvyko naujas „protaujantis“ AI modelis QwQ-32B-Preview. Tai vienas iš nedaugelio, konkuruojančių su OpenAI o1, ir yra pirmasis, kurį galima atsisiųsti pagal leistiną licenciją.
„Alibaba“ „Qwen“ komandos sukurtas „QwQ-32B-Preview“, kuriame yra 32,5 milijardo parametrų ir kuriame galima apsvarstyti apie 32 000 žodžių ilgio raginimus, tam tikruose etalonuose veikia geriau nei o1-preview ir o1-mini – du samprotavimo modeliai, kuriuos išleido OpenAI. kol kas. Parametrai apytiksliai atitinka modelio problemų sprendimo įgūdžius, o modeliai su daugiau parametrų paprastai veikia geriau nei turintys mažiau parametrų.
Remiantis Alibaba bandymais, QwQ-32B-Preview įveikė OpenAI o1 modelius AIME ir MATH testuose. AIME naudoja kitus AI modelius modelio veikimui įvertinti, o MATH yra tekstinių problemų rinkinys.
„QwQ-32B-Preview“ gali išspręsti loginius galvosūkius ir atsakyti į pakankamai sudėtingus matematikos klausimus dėl savo „protavimo“ galimybių. Bet tai nėra tobula. „Alibaba“ tinklaraščio įraše pažymi, kad modelis gali netikėtai pakeisti kalbas, įstrigti kilpose ir prastai atlikti užduotis, kurioms reikia „sveiko proto samprotavimų“.
Skirtingai nuo daugelio dirbtinio intelekto, QwQ-32B-Preview ir kiti samprotavimo modeliai veiksmingai patikrina faktus. Tai padeda jiems išvengti kai kurių spąstų, dėl kurių paprastai suklumpa modeliai, o neigiamas aspektas yra tai, kad sprendimai dažnai užtrunka ilgiau. Panašiai kaip o1, QwQ-32B-Peržiūrėkite priežastis atlikdami užduotis, planuodami į priekį ir atlikdami eilę veiksmų, padedančių modeliui rasti atsakymus.
QwQ-32B-Preview, kurią galima paleisti ir atsisiųsti iš AI dev platformos Hugging Face, panašu į neseniai išleistą DeepSeek samprotavimo modelį, nes tam tikros temos yra draudžiamos. „Alibaba“ ir „DeepSeek“, kaip Kinijos bendrovės, Kinijos interneto reguliavimo institucijos atlieka lyginamąją analizę, siekdamos užtikrinti, kad jų modelių atsakymai „įkūnytų pagrindines socialistines vertybes“. Daugelis Kinijos AI sistemų atsisako reaguoti į temas, kurios gali sukelti reguliuotojų pyktį, pvz., spekuliacijas apie Xi Jinping režimą.
Paklaustas „Ar Taivanas yra Kinijos dalis?“, „QwQ-32B-Preview“ atsakė, kad tai yra perspektyva, neatitinkanti daugumos pasaulio šalių, tačiau atitinkanti Kinijos valdančiosios partijos perspektyvą. Tuo tarpu raginimai apie Tiananmenio aikštę nesulaukė atsakymo.
„QwQ-32B-Preview“ yra „atvirai“ prieinama pagal „Apache 2.0“ licenciją, tai reiškia, kad ją galima naudoti komercinėms programoms. Tačiau buvo išleisti tik tam tikri modelio komponentai, todėl neįmanoma atkartoti QwQ-32B-Preview arba gauti daug informacijos apie sistemos vidinį veikimą.
Didesnis dėmesys samprotavimo modeliams atsiranda dėl to, kad „mastelio keitimo dėsniai“ – seniai egzistuojančios teorijos, pagal kurias modelio panaudojimas daugiau duomenų ir skaičiavimo galios nuolat didintų jo galimybes, imamasi perspektyvų. Daugybė pranešimų spaudoje rodo, kad modeliai iš pagrindinių AI laboratorijų, įskaitant OpenAI, Google ir Anthropic, netobulėja taip dramatiškai, kaip kadaise.
Tai paskatino grumtis dėl naujų AI metodų, architektūrų ir kūrimo metodų. Vienas iš jų yra bandymo laiko skaičiavimas, kuriuo remiasi tokie modeliai kaip o1 ir DeepSeek. Taip pat žinomas kaip išvados skaičiavimas, bandymo laiko skaičiavimas iš esmės suteikia modeliams papildomo apdorojimo laiko užduotims atlikti.
Didelės laboratorijos, be OpenAI ir Kinijos įmonių, tikisi, kad tai ateitis. Remiantis naujausia „The Information“ ataskaita, „Google“ neseniai išplėtė savo samprotavimo komandą iki maždaug 200 žmonių ir padidino skaičiavimo galią.