„Openai“ kodeksas yra naujos agentų kodavimo įrankių kohortos dalis

Praėjusį penktadienį „Openai“ pristatė naują kodavimo sistemą pavadinimu „Codex“, skirta atlikti sudėtingas programavimo užduotis iš natūralių kalbų komandų. „Codex“ perkelia „Openai“ į naują agentų kodavimo įrankių grupę, kuri tik pradeda formuotis.

Nuo ankstyvojo „GitHub“ kopilo iki šiuolaikinių įrankių, tokių kaip žymeklis ir burlentė, dauguma AI kodavimo padėjėjų veikia kaip išskirtinai intelektualią automatinę užbaigimo formą. Įrankiai paprastai gyvena integruotoje plėtros aplinkoje, o vartotojai tiesiogiai sąveikauja su AI sukurtu kodu. Perspektyva tiesiog priskirti užduotį ir grįžti, kai ji bus baigta, iš esmės nepasiekiama.

Tačiau šie nauji agentiniai kodavimo įrankiai, vadovaujami tokių produktų kaip „Devin“, „Swe-Agent“, „Openhands“ ir minėta „Openai Codex“, yra skirta veikti, kai vartotojams niekada nereikia matyti kodo. Tikslas yra veikti kaip inžinerijos komandos vadovas, priskiriant problemas per tokias darbo vietų sistemas kaip „Asana“ ar „Slack“, ir tikrintis, kai buvo pasiektas sprendimas.

Tikintiesiems labai pajėgios AI formoms tai yra kitas logiškas žingsnis natūraliai automatizavimo progresui, perimant vis daugiau programinės įrangos darbo.

„Iš pradžių žmonės tiesiog parašė kodą, paspausdami kiekvieną klavišą“,-aiškina Kilianas Lieret, Prinstono tyrėjas ir „SWE-Agent“ komandos narys. „„ GitHub Copilot “buvo pirmasis produktas, pasiūlusį„ Real Auto-Complete “, kuris yra antrojo etapo. Jūs vis dar esate absoliučiai kilpoje, tačiau kartais galite imtis nuorodos.“

„Agentic Systems“ tikslas yra visiškai peržengti plėtros aplinką, užuot pateikę kodavimo agentus su problema ir palikti juos savarankiškai išspręsti. „Mes traukiame dalykus atgal į valdymo sluoksnį, kur aš tiesiog priskiriu klaidų ataskaitą, o robotas bando ją visiškai autonomiškai ištaisyti“, – sako Lieret.

Tai ambicingas tikslas, ir iki šiol tai yra sunku.

Po to, kai Devinas tapo prieinamas 2024 m. Pabaigoje, jis sulaukė skaudančios „YouTube“ punditų kritikos, taip pat labiau išmatuotą ankstyvojo kliento kritiką „Resage.ai“. Bendras įspūdis buvo pažįstamas vibe koduojantiems veteranams: turint tiek daug klaidų, modelių prižiūrėjimas užtrunka tiek, kiek atliekant užduotį rankiniu būdu. (Nors „Devin“ diegimas buvo šiek tiek akmenuotas, jis nesustabdė lėšų rinkėjų nuo potencialo pripažinimo – kovo mėnesį, kaip pranešama, „Devin“ patronuojanti įmonė „Cogtion AI“ surinko šimtus milijonų dolerių įvertindama 4 milijardus dolerių.)

Net technologijos rėmėjai atsargiai prieš neprižiūrimą vibe kodavimą, matydami, kad nauji kodavimo agentai yra galingi elementai žmogaus prižiūrimame plėtros procese.

„Šiuo metu, sakyčiau, artimiausioje ateityje žmogus turi įsitraukti į kodų peržiūros laiką, kad pažvelgtų į parašytą kodą“, – sako Robertas Brennanas, „All Hands AI“, palaikančio „Openhands“, generalinis direktorius. „Mačiau, kaip keli žmonės dirba netvarką, tiesiog automatiškai patvirtindami kiekvieną kodą, kurį rašo agentas. Jis greitai išeina iš rankų.“

Haliucinacijos taip pat yra nuolatinė problema. Brennanas prisimena vieną įvykį, kurio metu, kai paklausta apie API, kuri buvo išleista po „Openhands“ agento treniruočių duomenų ribų, agentas sukūrė API, tinkančių aprašymui, išsamią informaciją. Visos rankos AI sako, kad ji dirba su sistemomis, kad sugautų šias haliucinacijas, kol jos gali padaryti žalą, tačiau nėra paprasto sprendimo.

Be abejo, geriausia agentų programavimo pažangos priemonė yra SWE-BEND lyderių lentelės, kuriose kūrėjai gali išbandyti savo modelius pagal neišspręstų klausimų rinkinį iš „Open GitHub“ saugyklų. Šiuo metu „Openhands“ užima aukščiausią vietą patikrintoje lyderių lentelėje, išspręsdamas 65,8% nustatytos problemos. „Openai“ teigia, kad vienas iš modelių, maitinančių „Codex“, „Codex-1“, gali padaryti geriau, savo pranešime pateikdamas 72,1% balą-nors rezultatas buvo pateiktas su keliais įspėjimais ir nebuvo savarankiškai patikrintas.

Daugelio technologijų pramonėje susirūpinimas yra tas, kad aukštas etaloninis balai nebūtinai reiškia iš tikrųjų agentų kodavimą. Jei agentų koderiai gali išspręsti tik tris iš keturių problemų, jiems reikės reikšmingos žmonių vystytojų priežiūros, ypač spręsdami sudėtingas sistemas su keliais etapais.

Kaip ir dauguma AI įrankių, tikimasi, kad pagrindų modelių patobulinimai bus stabiliais tempais, galiausiai įgalinančios agentų kodavimo sistemas išaugti į patikimus kūrėjų įrankius. Tačiau norint patekti, labai svarbu rasti būdų, kaip valdyti haliucinacijas ir kitas patikimumo problemas.

„Manau, kad yra šiek tiek patikimo barjero efekto“, – sako Brennanas. „Kyla klausimas, kiek pasitikėjimo galite pereiti prie agentų, todėl dienos pabaigoje jie ištraukia daugiau iš jūsų darbo krūvio?“

Nuoroda į informacijos šaltinį