Naujasis dirbtinio intelekto įmonės „Sierra“ etalonas rodo, kad daugumai LLM nepavyksta atlikti sudėtingesnių užduočių

0


Generatyvaus dirbtinio intelekto startuolis „Sierra Technologies Inc.“ imasi „peržengti pokalbio AI agentų ribas“ atlikdama naują etaloninį testą, įvertinantį AI agentų našumą realiame pasaulyje.

Palyginti su ankstesniais etalonais, Sierra 𝜏-bench yra daugiau nei tiesiog AI pokalbių robotų pokalbio galimybių įvertinimas, jų gebėjimas atlikti įvairias sudėtingas užduotis klientų aptarnavimo agentų vardu.

„Sierra AI“ įkūrė buvęs „Salesforce Inc.“ generalinis direktorius Bretas Tayloras ir buvęs „Google LLC“ vadovas Clay Bavoras ir sukūrė, kaip teigiama, daug pažangesnius AI pokalbių robotus su konteksto suvokimu, kuris pagerina jų gebėjimą atsakyti į klientų užklausas.

Skirtingai nuo „ChatGPT“ ir kitų pokalbių robotų, „Sierra“ AI agentai gali atlikti tokius veiksmus kaip atidaryti bilietą klientui, norinčiam grąžinti prekę ir susigrąžinti pinigus. Tai leidžia klientams atlikti tam tikras užduotis per įmonės pokalbių robotus savitarnos būdu, tai reiškia, kad jiems niekada nereikia kalbėtis su žmogumi.

Startuolis teigia, kad norint įvertinti šių pažangesnių pokalbių robotų galimybes, reikia geresnio etalono, ypač todėl, kad tai nėra vienintelė AI įmonė, bandanti įsiveržti į šią sritį. Pavyzdžiui, anksčiau šią savaitę konkuruojanti įmonė „Decagon AI Inc.“ paskelbė surinkusi 35 mln. USD, kad padėtų savo AI agentams, kurie taip pat gali užmegzti labiau kontekstualizuotą, pokalbio sąveiką su klientais ir prireikus imtis veiksmų.

„Tvirtas agento veikimo ir patikimumo matavimas yra labai svarbus sėkmingam jų diegimui“, – dienoraščio įraše rašė „Sierra“ tyrimų vadovas Karthikas Narasimhanas. „Prieš įmonės diegdamos dirbtinio intelekto agentą, jos turi įvertinti, kaip gerai jis veikia pagal kuo realistiškesnį scenarijų.

Pasak Narasimhano, esami etalonai to nepadaro, nes jie įvertina tik vieną žmogaus ir agento sąveikos etapą, kurio metu visa reikiama informacija užduočiai atlikti apsikeičiama vienu ypu. Žinoma, realaus gyvenimo scenarijuose tai neįvyksta, nes agentų bendravimas yra labiau pokalbis, o jiems reikalinga informacija įgyjama per kelis mainus.

Be to, esami lyginamieji standartai daugiausia orientuoti tik į vertinimą ir nematuoja patikimumo ar prisitaikymo, sakė Narasimhanas.

Geresnis pokalbio AI agentų etalonas

„Sierra's 𝜏“ stendas, aprašytas moksliniame darbe, sukurtas taip, kad būtų kur kas gilesnis, ir tai daroma išskaidydamas realistiško agento etalono reikalavimus į tris pagrindinius dalykus.

Narasimhanas paaiškino, kad realaus pasaulio nustatymai reikalauja, kad agentai ilgą laiką sąveikautų ir su žmonėmis, ir su programų programavimo sąsajomis, kad surinktų visą informaciją, reikalingą sudėtingoms problemoms išspręsti. Antra, dirbtinio intelekto agentai turi turėti galimybę laikytis sudėtingos politikos ir taisyklių, būdingų užduočiai ar domenui, ir, trečia, jie turi išlaikyti nuoseklumą milijonų sąveikų metu.

Kiekviena iš 𝜏 etalono užduočių skirta patikrinti AI agento gebėjimą laikytis taisyklių, samprotauti ir įsiminti informaciją ilguose ir sudėtinguose kontekstuose, taip pat jo gebėjimą efektyviai bendrauti šiuose pokalbiuose.

„Naudojome būseną pagrįstą vertinimo schemą, kuri palygina duomenų bazės būseną po kiekvienos užduoties atlikimo su laukiamu rezultatu, kad galėtume objektyviai įvertinti agento sprendimų priėmimą“, – paaiškino Narasimhanas.

Esami AI pokalbių robotai yra nepakankami

„Sierra“ naudojo daugybę populiarių didelių kalbų modelių, o rezultatai rodo, kad dauguma AI įmonių vis dar turi daug nuveikti kurdamos naudingus pokalbių robotus, kurie gali padėti klientų aptarnavimo agentams, o ne tik apibendrinti pokalbį. Nustatyta, kad kiekvienas iš 12 išbandytų LLM sunkiai spręsdavo įvairias užduotis 𝜏 stende. Geriausias „OpenAI“ GPT-4o sėkmės rodiklis buvo mažesnis nei 50 % dviejose srityse – mažmeninės prekybos ir oro linijų.

12 LLM patikimumas taip pat buvo labai abejotinas pagal 𝜏-stendinio testo rezultatus. Sierra nustatė, kad nė vienas iš LLM negalėjo nuosekliai išspręsti tos pačios užduoties, kai sąveika buvo imituojama kelis kartus. Modeliavimas apėmė nedidelius posakių skirtumus, išlaikant tą pačią semantiką. Pavyzdžiui, GPT-4o maitinamo dirbtinio intelekto agento patikimumas buvo įvertintas mažiau nei 25 %, o tai reiškia, kad jis turi tik 25 % galimybę išspręsti kliento problemą neperduodamas agentui.

Rezultatai taip pat parodė, kad LLM nėra ypač puikūs, kai reikia laikytis sudėtingos politikos ir taisyklių, nustatytų jos politikos dokumentuose.

Kita vertus, „Sierra“ teigė, kad jos agentai veikė daug geriau, nes turi daug daugiau galimybių. Pavyzdžiui, „Sierra Agent“ programinės įrangos kūrimo rinkinys leidžia kūrėjams deklaratyviai nurodyti agento elgesį, kad jie galėtų tiksliau atlikti sudėtingas užduotis. Be to, jos agentams taip pat vadovauja priežiūros LLM, užtikrinančios nuoseklumą ir nuspėjamumą, kai kalbama apie skirtingus dialogus, kuriuose aprašomos tos pačios problemos. Galiausiai, „Sierra“ teikia agentų kūrimo gyvavimo ciklo įrankius, leidžiančius kūrėjams kartoti savo agentus skrydžio metu, kad būtų pagerintas jų veikimas remiantis realaus pasaulio stebėjimais.

Sierra teigė, kad ateityje jis padarys 𝜏-stendą prieinamą dirbtinio intelekto bendruomenei, todėl kiekvienas galės jį naudoti, kad padėtų kurti savo pokalbių LLM. Jos kūrėjai naudos 𝜏-bench kaip vadovą, kai sudarys ir tobulins būsimus AI modelius, kad užtikrintų, jog jie gali nuosekliai atlikti vis daugiau sudėtingų užduočių.

Startuolis taip pat nori patobulinti 𝜏-bandą, padidindamas savo imituojamų žmonių ištikimybę, pasitelkdamas pažangesnius LLM su patobulintu samprotavimu ir planavimu. Ji taip pat dės pastangas, kad sumažintų anotacijų sudėtingumą naudojant automatizavimą ir sukurs tikslesnę metriką, kuri gali patikrinti kitus AI agentų pokalbio veikimo aspektus.

Pagrindinis vaizdas: SiliconANGLE / Microsoft Designer

Jūsų balsas už paramą mums yra svarbus ir padeda mums išlaikyti turinį NEMOKAMĄ.

Vienu spustelėjimu toliau palaikome mūsų misiją teikti nemokamą, išsamų ir aktualų turinį.

Prisijunkite prie mūsų bendruomenės „YouTube“.

Prisijunkite prie bendruomenės, kurią sudaro daugiau nei 15 000 #CubeAlumni ekspertų, įskaitant Amazon.com generalinį direktorių Andy Jassy, ​​„Dell Technologies“ įkūrėją ir generalinį direktorių Michaelą Delą, „Intel“ generalinį direktorių Patą Gelsingerį ir daugybę kitų šviesuolių bei ekspertų.

„TheCUBE yra svarbus pramonės partneris. Jūs, vaikinai, tikrai esate mūsų renginių dalis ir mes labai vertiname, kad atėjote, ir aš žinau, kad žmonės taip pat vertina jūsų kuriamą turinį“ – Andy Jassy

AČIŪ



Source link

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - VeidoskaitaTeniso treniruotės -