Pelno nesiekiantis AI saugos centras (CAIS) ir įmonė „Scale AI“, teikianti daugybę duomenų ženklinimo ir dirbtinio intelekto kūrimo paslaugų, išleido naują sudėtingą etaloną pasienio AI sistemoms.
Etalonas, vadinamas paskutiniu žmonijos egzaminu, apima tūkstančius klausimų, susijusių su tokiais dalykais kaip matematika, humanitariniai mokslai ir gamtos mokslai. Kad vertinimas būtų sunkesnis, klausimai pateikiami keliais formatais, įskaitant formatus, kuriuose yra diagramų ir vaizdų.
Preliminariame tyrime nė vienai viešai prieinamai pavyzdinei AI sistemai nepavyko surinkti geresnių nei 10% paskutinio žmonijos egzamino balų.
CAIS ir Scale AI teigia, kad planuoja atverti etaloną mokslinių tyrimų bendruomenei, kad mokslininkai galėtų „gilintis į variantus“ ir įvertinti naujus AI modelius.