Tyrėjai kuria naują techniką, leidžiančią išspausti pilno riebumo AI modelius į asmeninius kompiuterius ir išmaniuosius telefonus
Dirbtinio intelekto tyrinėtojai iš Yandex LLC ir NeuralMagic Inc. šiandien teigė, kad padarė didelę pažangą stengdamiesi suspausti galingus didelių kalbų modelius, tokius kaip Meta Platforms Inc. Llama 2, kad juos būtų galima naudoti kasdieniuose įrenginiuose, pavyzdžiui, išmaniuosiuose telefonuose ir išmaniuosiuose telefonuose. garsiakalbiai.
Tyrėjai, bendradarbiaudami su Austrijos mokslo ir technologijų instituto bei Karaliaus Abdullah mokslo ir technologijų universiteto mokslininkais, teigia, kad sukūrė ne vieną, o du atskirus LLM suspaudimo metodus. Naudojant kartu, jie leidžia sumažinti LLM dydį iki aštuonių kartų, išsaugant atsako kokybę vidutiniškai 95%.
Nauji metodai – kalbų modelių priedų kvantavimas arba AQLM ir PV derinimas – buvo sukurti atviro kodo. Jie aprašyti akademiniame darbe, paskelbtame arxiv.org, ir juos gali atsisiųsti bet kas iš GitHub.
AQLM naudoja metodą, žinomą kaip „addityvinis kvantavimas”, kuris tradiciškai buvo naudojamas informacijos gavimo užduotims atlikti, kad sumažintų bitų skaičių vienam modeliui iki dviejų ar trijų bitų, išsaugant jo tikslumą. Tuo tarpu PV-Tuning yra reprezentacinė-agnostinė sistema, kuri gali apibendrinti ir patobulinti esamas AI modelių koregavimo strategijas. Taip pat pašalinamos klaidos, kurios gali kilti modelio glaudinimo proceso metu.
Nors šios dvi technikos savaime yra galingos, ypač naujoviška yra tai, kad jie sukurti taip, kad juos būtų galima derinti. Tai darydami mokslininkai išsiaiškino, kad gali sukurti „itin kompaktiškus“ LLM, kurie yra beveik tokie pat pajėgūs kaip ir jų pilno dydžio kolegos.
Tyrėjai teigė, kad jų darbą paskatino noras rasti geresnį būdą įdiegti LLM vartotojų techninėje įrangoje. Iki šiol tai buvo didelis iššūkis, atsižvelgiant į būdingą kompromisą tarp modelio dydžio ir skaičiavimo efektyvumo.
Kai kurios dirbtinio intelekto įmonės bandė tai padaryti pačios. Pavyzdžiui, „Google LLC“ „Gemini“ LLM šeima turi lengvą versiją, vadinamą „Gemini Nano“, skirtą diegti išmaniuosiuose telefonuose, tačiau ji negali prilygti pilno „Gemini Ultra LLM“ našumui.
Taikant AQLM ir PV-Tuning metodus, tokie kompromisai nebereikalingi, teigia mokslininkai. Savo darbe jie demonstruoja metodų veiksmingumą griežtai vertindami populiarius atvirojo kodo LLM, įskaitant Llama 2, Mistral ir Mixtral. Trys modeliai buvo suglaudinti prieš juos įvertinant pagal anglų kalbos teksto generavimo etalonus WikiText2 ir C4, ir jie išlaikė įspūdingą 95 % atsakymų kokybę, nepaisant to, kad jie buvo suspausti aštuonis kartus nuo pradinio dydžio.
Kaip papildomą naudą, tyrėjai teigė, kad suspaustos šių atvirojo kodo LLM versijos gali veikti iki keturių kartų greičiau, nes joms reikia mažiau skaičiavimų. Taigi jie gali pateikti atsakymą daug greičiau nei viso dydžio modeliai ir beveik tokiu pat tikslumu.
Pasak mokslininkų, įmonės, norinčios kurti ir diegti patentuotus ir atvirojo kodo LLM, gali naudoti savo metodus, kad sutaupytų daug išteklių. Pavyzdžiui, jie teigė, kad „Llama 2“ modelis su 13 milijardų parametrų gali būti suglaudintas, kad veiktų tik viename grafikos apdorojimo bloke, o ne keturi GPU viso dydžio nesuspaustoje versijoje.
Tai reiškia, kad aparatinės įrangos sąnaudos sumažėja nuo dviejų iki šešių kartų, teigia mokslininkai. Dar svarbiau, kad tai atveria kelią didžiausiems ir galingiausiems LLM diegti vartotojų įrenginiuose, tokiuose kaip asmeniniai kompiuteriai ir išmanieji telefonai.
Galimybė diegti viso dydžio LLM mažesniuose įrenginiuose atveria duris naujoms programoms. Pavyzdžiui, išmanusis telefonas, kuriame veikia suspausta Llama 2 su 13 milijardų parametrų, galės atlikti teksto ir vaizdų generavimą, pagalbą balsu, asmenines rekomendacijas ir vertimą realiuoju laiku neprisijungus prie interneto.
Tyrėjai teigė, kad jų pranešimas bus pristatytas 41-ojoje tarptautinėje mašininio mokymosi konferencijoje Vienoje, Austrijoje, kuri vyks liepos 21–27 d.
AQLM ir PV-Tuning galima atsisiųsti iš „GitHub“, o daugybę jau suglaudintų populiarių atvirojo kodo modelių versijų galima pasiekti iš „HuggingFace“.
Vaizdas: SiliconANGLE / Microsoft Designer
Jūsų balsas už paramą mums yra svarbus ir padeda mums išlaikyti turinį NEMOKAMĄ.
Vienu spustelėjimu toliau palaikome mūsų misiją teikti nemokamą, išsamų ir aktualų turinį.
Prisijunkite prie mūsų bendruomenės „YouTube“.
Prisijunkite prie bendruomenės, kurią sudaro daugiau nei 15 000 #CubeAlumni ekspertų, įskaitant Amazon.com generalinį direktorių Andy Jassy, „Dell Technologies“ įkūrėją ir generalinį direktorių Michaelą Delą, „Intel“ generalinį direktorių Patą Gelsingerį ir daugybę kitų šviesuolių bei ekspertų.
AČIŪ