„Deepseek“ tapo virusinis.
Kinijos AI laboratorija „Deepseek“ įsiveržė į pagrindinę sąmonę šią savaitę po to, kai jos „Chatbot“ programa pakilo į „Apple App Store“ diagramų viršų. „Deepseek“ AI modeliai, kurie buvo apmokyti naudojant skaičiavimo efektyvius metodus, paskatino Volstryto analitikus ir technologus, kad suabejotum, ar JAV gali išlaikyti savo pavyzdį AI lenktynėse ir ar išlaikys AI drožlių paklausą.
Bet iš kur atsirado „Deepseek“ ir kaip tai taip greitai išaugo į tarptautinę šlovę?
„Deepseek“ prekybininko kilmė
„Deepseek“ remia Kinijos kiekybinis rizikos draudimo fondas „High Flyer Capital Management“, kuris naudoja AI, kad informuotų apie savo prekybos sprendimus.
AI entuziastas Liangas Wenfengas 2015 m. Įkūrė aukštą skrydį. Wenfengas, kuris, kaip pranešama, pradėjo prekiauti prekyboje, kai 2019 m. Studentas pradėjo aukšto skrydžio kapitalo valdymą kaip rizikos draudimo fondą, daugiausia dėmesio skirdamas AI algoritmų kūrimui ir diegimui.
2023 m. „High-Flyer“ pradėjo „Deepseek“ kaip laboratorija, skirta tyrinėti AI įrankius, atskirtus nuo jo finansinio verslo. Kadangi vienas iš jos investuotojų yra aukštas, laboratorija pasitraukė į savo įmonę, dar vadinamą „Deepseek“.
Nuo pirmosios dienos „Deepseek“ sukūrė savo duomenų centro grupes modelio mokymui. Tačiau, kaip ir kitos AI bendrovės Kinijoje, „Deepseek“ paveikė JAV eksporto draudimai dėl aparatinės įrangos. Norėdami išmokyti vieną iš naujausių savo modelių, įmonė buvo priversta naudoti „Nvidia H800“ lustus-mažiau galingą lusto versiją „H100“, prieinamą JAV įmonėms.
Sakoma, kad „Deepseek“ techninė komanda pasvirusi. Pranešama, kad bendrovė agresyviai įdarbina daktaro laipsnį AI tyrėjams iš geriausių Kinijos universitetų. „Deepseek“ taip pat samdo žmones, neturinčius jokių kompiuterių mokslų pagrindų, kad padėtų jos technikai geriau suprasti įvairius dalykus, per „New York Times“.
Stiprūs „Deepseek“ modeliai
2023 m. Lapkričio mėn. „Deepseek“ pristatė savo pirmąjį modelių rinkinį-„Deepseek Coder“, „Deepseeek LLM“ ir „Deepseeek Chat“. Tačiau tik praėjusį pavasarį, kai startuolis išleido savo naujos kartos „Deepseek-V2“ modelių šeimą, kad AI pramonė, kad AI pramonė yra AI pramonė. pradėjo atkreipti dėmesį.
„Deepseek-V2“, bendrosios paskirties teksto ir vaizdų analizavimo sistema, gerai veikė įvairiuose AI etalonuose-ir tuo metu buvo daug pigesnė nei palyginami modeliai. Tai privertė „Deepseek“ vidaus konkurenciją, įskaitant „Byedance“ ir „Alibaba“, sumažinti kai kurių jų modelių naudojimo kainas, o kitiems – visiškai laisvas.
„Deepseek-V3“, pradėtas 2024 m. Gruodžio mėn., Tik pridedamas prie „Deepseek“ žinomumo.
Remiantis „Deepseek“ vidiniu etaloniniu testavimu, „Deepseek V3“ pralenkia tiek atsisiunčiamus, tiek atvirai prieinamus modelius, tokius kaip „Meta“ lama ir „uždaryti“ modeliai, kuriuos galima pasiekti tik per API, pavyzdžiui, „Openai“ GPT-4O.
Lygiai taip pat įspūdingas yra „Deepseek“ R1 „samprotavimo“ modelis. Sausio mėn. Išleista „Deepseek“ teigia, kad „R1“ taip pat atlieka „Openai“ O1 modelį ant pagrindinių etalonų.
Būdamas samprotavimo modeliu, pats R1 tikrina faktus, o tai padeda išvengti kai kurių spąstų, kurie paprastai kelia modelius. Priežiūros modeliai užtrunka šiek tiek ilgiau-paprastai sekundes ar minutes ilgiau-, kad gautumėte sprendimus, palyginti su tipišku nepaisymo modeliu. Viršūnė yra ta, kad jie yra linkę būti patikimesni tokiose srityse kaip fizika, mokslas ir matematika.
Vis dėlto yra neigiamas dalykas R1, „Deepseek V3“ ir kitiems „Deepseek“ modeliams. Būdami kinų išsivysčiusi AI, jiems taikoma Kinijos interneto reguliavimo etalonas, siekiant užtikrinti, kad jos atsakymai „įkūnytų pagrindines socialistines vertybes“. Pavyzdžiui, „Deepseek“ „Chatbot“ programoje R1 neatsakys į klausimus apie Tiananmeno aikštę ar Taivano autonomiją.
Žlugdantis požiūris
Jei „Deepseek“ turi verslo modelį, neaišku, koks yra tas modelis. Bendrovė savo produktus ir paslaugas kainuoja daug mažesnę nei rinkos vertę – ir suteikia kitiems nemokamai.
Tai, kaip „Deepseek“ pasakoja, efektyvumo proveržiai leido išlaikyti ekstremalų sąnaudų konkurencingumą. Tačiau kai kurie ekspertai ginčija įmonės pateiktus duomenis.
Kad ir kaip būtų, kūrėjai ėmėsi į „Deepseek“ modelius, kurie nėra atvirojo kodo, nes frazė paprastai suprantama, tačiau juos galima įsigyti pagal leistiną licencijų, leidžiančių naudoti komercinius naudojimą. Anot Clem Delangue, „Hugging Face“ generalinio direktoriaus, vienos iš platformų, kuriuose yra „Deepseek“ modeliai, kūrėjai, „Hugging Face“, sukūrė daugiau nei 500 „išvestinių“ R1 modelių, kurie kartu surinko 2,5 milijono atsisiuntimų.
„Deepseek“ sėkmė prieš didesnius ir labiau įsitvirtinusias konkurentus buvo apibūdinta kaip „pakilimo AI“ ir įvedant „naują AI Brinkmanship erą“. Bendrovės sėkmė bent iš dalies buvo atsakinga už tai, kad NVIDIA akcijų kaina pirmadienį sumažėjo 18% ir už tai, kad sukėlė viešąjį „Openai“ generalinio direktoriaus Sam Altmano atsakymą.
Kalbant apie tai, kokia gali kilti „Deepseek“ ateitis, neaišku. Patobulinti modeliai yra duoti. Tačiau panašu, kad JAV vyriausybė vis atsargiai vertina tai, ką ji suvokia kaip kenksmingą užsienio įtaką.
„TechCrunch“ turi AI orientuotą informacinį biuletenį! Prisiregistruokite čia, kad gautumėte gautuosius kiekvieną trečiadienį.