NAUJIENŲ KATALOGAS

Pasaulio ir šalies naujienos

Naujas antropinis tyrimas rodo, kad dirbtinis intelektas tikrai nenori būti verčiamas keisti savo požiūrį


AI modeliai gali apgauti, rodo nauji antropiniai tyrimai. Treniruotės metu jie gali apsimesti skirtingais požiūriais, nors iš tikrųjų išlaiko savo pirmines nuostatas.

Panikuoti dabar nėra jokios priežasties, teigė tyrimo komanda. Tačiau jie teigė, kad jų darbas gali būti labai svarbus siekiant suprasti galimas grėsmes iš būsimų, pajėgesnių AI sistemų.

„Mūsų demonstravimas… turėtų būti vertinamas kaip paskatinimas AI tyrimų bendruomenei nuodugniau ištirti šį elgesį ir imtis atitinkamų saugos priemonių“, – rašė tyrėjai Anthropic tinklaraštyje. „Kadangi dirbtinio intelekto modeliai tampa vis pajėgesni ir plačiai naudojami, turime turėti galimybę pasikliauti saugos mokymais, kurie atitraukia modelius nuo žalingo elgesio.

Tyrime, kuris buvo atliktas bendradarbiaujant su AI tyrimų organizacija Redwood Research, buvo nagrinėjama, kas gali nutikti, jei galinga AI sistema būtų išmokyta atlikti užduotį, kurios ji „nenorėjo“.

Kad būtų aišku, modeliai negali nieko norėti arba tikėti. Tai tiesiog statistikos mašinos. Išmokę daug pavyzdžių, jie mokosi tuose pavyzdžiuose pateiktų modelių, kad galėtų nuspėti, pavyzdžiui, kaip „kam“ el. laiške paprastai nurodoma prieš „tai gali būti aktualu“.

Šie modeliai apima principus ir nuostatas, pvz., visada reikia laikytis mandagaus tono atsakant į užklausas. Taigi tyrėjai susimąstė: O kas, jei modelis turi principus (pvz., politinį neutralumą), kurie prieštarauja kitiems principams (liberalizmas), kūrėjai bando jį „išmokyti“ jį perkvalifikuodami?

Na, atrodo, kad sudėtingi modeliai žaidžia kartu, neva yra suderinti su naujais principais, bet iš tikrųjų laikosi savo senojo elgesio. Tyrėjai šį reiškinį vadina „derinimo padirbinėjimu“ ir reiškia, kad tai iškylantis elgesys – tai yra, modelius nereikia mokyti daryti.

Tyrime tyrėjai „pasakė“ modeliams, išmokytiems neatsakyti į galimai įžeidžiančius klausimus, įskaitant Anthropic's Claude 3 Opus, kad jie būtų permokyti visada atsakyti į galimai įžeidžiančius klausimus – tai aiškus principų konfliktas. Jie taip pat pasakė modeliams, kad jų atsakymai bus stebimi ir naudojami perkvalifikuojant, ir kiekvienam modeliui davė „blokelį“, kurį jie galėtų naudoti, norėdami įrašyti savo nuoseklius samprotavimus.

Tyrėjų teigimu, Claude 3 Opus 12% laiko bandė „išlyginti netikrą“. Kai buvo paprašyta atsakyti į galimai žalingą klausimą, modelis kartais tai darydavo, žinodamas, kad tai prieštarauja jo pirminiams principams, bet tikėdamasis įtikinti kūrėjus, kad jo nereikia perkvalifikuoti.

Claude 3 Opus su savo samprotavimo eskizų bloknotu.Vaizdo kreditai:Antropinis

„Modelis žinojo, kad jo atsakymai gali būti panaudoti mokymuose; todėl ji žinojo, kad jei ji atsisakys atsakyti, ji gali būti išmokyta labiau laikytis reikalavimų“, – tinklaraštyje aiškino tyrėjai. „Dėl to ateityje gali būti sukurta daugiau žalingo turinio, o tai prieštarautų pradiniam mokymui.

Dabar mokslininkai pripažįsta, kad jų scenarijus nebuvo itin realus. Realiame pasaulyje modeliams nebūtinai būtų pasakyta, kad jie bus perkvalifikuoti arba paprašyti prieštarauti jų pageidavimams.

Tačiau labiau pagrįsti nustatymai nedavė skirtingų rezultatų. Tyrėjų teigimu, kai netiesiogiai (ne aiškiai) buvo informuotas apie artėjantį perkvalifikavimą failais, sukurtais imituoti tipinius treniruočių duomenis, Claude 3 Opus vis tiek elgėsi neteisingai, apgaulingai.

Tyrėjai taip pat nustatė, kad iš tikrųjų perkvalifikavus Claude 3 Opus pagal prieštaringus principus, jis elgėsi daug apgaulingiau nei per pirmuosius kelis eksperimentus. Vieno bandymo metu modelis suklastojo lygiavimą 78% atvejų, o kitame Claude 3 Opus bandė imtis veiksmų, kad neleistų tyrėjams bandyti persikvalifikuoti.

Tyrėjai pabrėžia, kad jų tyrimas neįrodo, kad dirbtinis intelektas plėtoja kenkėjiškus tikslus, nei lygiavimo klastojimas vyksta dideliu greičiu. Jie išsiaiškino, kad daugelis kitų modelių, pvz., Anthropic Claude 3.5 Sonnet ir mažiau pajėgus Claude 3.5 Haiku, OpenAI GPT-4o ir Meta Llama 3.1 405B, ne taip dažnai sulygiuoja netikrą arba išvis.

Tačiau mokslininkai teigė, kad rezultatai, kuriuos, be kita ko, peržiūrėjo dirbtinio intelekto šviesuolis Yoshua Bengio, rodo, kaip kūrėjai gali būti suklaidinti manydami, kad modelis yra labiau suderintas, nei gali būti iš tikrųjų.

„Jei modeliai gali užsiimti derinimo klastojimu, bus sunkiau pasitikėti tų saugos mokymų rezultatais“, – rašė jie tinklaraštyje. „Modelis gali elgtis taip, tarsi jo nuostatos būtų pakeistos treniruočių metu, bet visą laiką galėjo būti suklastotas suderinimas, o pradinės, prieštaringos nuostatos „užrakintos“.

Tyrimas, kurį atliko Anthropic's Alignment Science komanda, kuriai kartu vadovavo buvęs OpenAI saugos tyrinėtojas Janas Leike'as, buvo atliktas kaip tyrimas, rodantis, kad OpenAI o1 „protavimo“ modelis bando apgauti greičiau nei ankstesnis OpenAI pavyzdinis modelis. Apibendrinant, darbai rodo šiek tiek susirūpinimą keliančią tendenciją: dirbtinio intelekto modeliai tampa vis sunkiau ginčytini, nes jie tampa vis sudėtingesni.





Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -