Sosește Hyena, IA care face un prost pe ChatGPT

În spatele acestui program se află nume foarte illustre din domeniul inteligenței artificiale, precum Yoshua Bengio, câștigător al Premiului Turing 2019, sau Christopher Ré, care a contribuit la promovarea noțiunii de AI ca „software 2.0” în ultimii ani. Hiena realizează la fel ca ChatGPT cu mai puțin antrenament și mult mai puțină procesare.

Deși programul OpenAI, ChatGPT, merită toată admirația care i-a fost acordată în ultimul timp, realitatea este că este cu greu un software mai complex decât de obicei. Dar unul care necesită o cantitate enormă de pregătire pentru a funcționa și necesită o putere remarcabilă pentru a răspunde provocărilor din ce în ce mai complexe. Și acesta este momentul în care poate începe să eșueze.

Chat GPT

Totul a început în 2017, când Ashish Vaswani, pe atunci unul dintre liderii de cercetare Google, a prezentat programul Transformer AI, fundația sau părintele actualelor programe AI. Problema este că Transformer a avut un mare defect . Pentru a îndeplini sarcinile, folosește ceea ce este cunoscut sub numele de „atenție”: programul primește informațiile într-un grup de simboluri, cum ar fi cuvinte, și mută informațiile într-un nou grup de simboluri, cum ar fi răspunsul pe care îl vedem în ChatGPT.

Acea operație de atenție, instrumentul esențial al tuturor programelor actuale, inclusiv ChatGPT și GPT-4, are complexitate computațională „quadratică”. Asta înseamnă practic că timpul necesar pentru ca ChatGPT să genereze un răspuns crește pe măsură ce pătratul informațiilor pe care le primește .

Adică, dacă există prea multe date (prea multe cuvinte, multe linii de chat sau pixeli ai unei imagini), programul are nevoie de mai multă putere a computerului pentru a răspunde. Și acea nevoie se înmulțește de la sine până ajunge la o limită în care nu mai răspunde adecvat.

Într-o articol recent, o echipă de oameni de știință de la Universitatea Stanford și institutul MILA din Canada a propus o tehnologie care ar putea fi mult mai eficientă decât GPT-4 și a numit-o Hyena. Printre autori se numără Michael Poli din Stanford și Yoshua Bengio, directorul științific al MILA și câștigător al Premiului Turing 2019 (echivalentul informaticii al Premiului Nobel). Bengio este creditat cu dezvoltarea mecanismului de atenție cu mult înainte ca programul Transformer de la Google să existe. Lor li se alătură Christopher Ré, care a ajutat în ultimii ani la promovarea noțiunii de AI ca „software 2.0”. Haide, o selecție interesantă de creiere specializate.

Performanța înmulțită cu 100

Pentru a demonstra capacitatea Hienei, autorii au supus-o la diferite teste. Una dintre acestea este cunoscută sub numele de The Pile, o colecție de texte de 825 de gigaocteți ( echivalentul a peste 250,000 de cărți ) asamblat în 2020 de Eleuther.ai, o echipă de cercetare AI nonprofit. Textele sunt obținute din surse „de înaltă calitate” precum PubMed, arXiv, GitHub, US Patent Office și altele, astfel că informațiile sunt mai riguroase decât discuțiile care pot fi văzute pe Twitter.

Programul Hyena a obținut un scor echivalent cu ChatGPT, dar cu 20% mai puține operațiuni de calcul. În alte sarcini, Hyena a obținut scoruri egale sau apropiate de o versiune de GPT, chiar dacă a fost instruit pe mai puțin de jumătate din date.

Dar, și aici intervine lucrul interesant, când echipa lui Poli a crescut cererea pentru Hyena (s-au cerut mai multe date și schimbul a crescut în timp), programul s-a comportat mai bine. La 2,048 de jetoane, care pot fi considerate cuvinte, Hyena ia mai puțin timp pentru a finaliza o sarcină de limbă decât GhatGPT, dar până când ating 64,000 de jetoane, autorii notează că ” Accelerările pentru hiena ajung la 100 de ori ”, o îmbunătățire a performanței. de o sută de ori

De parcă toate acestea nu ar fi de ajuns, programul este mult mai mic decât GPT-4 sau chiar GPT-3. În timp ce GPT-3, de exemplu, are 175 de miliarde de parametri, cea mai mare versiune de Hyena are doar 1.3 miliarde. Adică are o îmbunătățire a performanței de o sută de ori mai mare atunci când este cel mai solicitat... cu o sută de ori mai puțini parametri. Un avans mai mult decât interesant și unul care ar putea lăsa ChatGPT ca o amintire foarte frumoasă… cât a durat.