Hyène arrive, l'IA qui ridiculise ChatGPT

Derrière ce programme se cachent des noms très illustres dans le domaine de l'intelligence artificielle, comme Yoshua Bengio, lauréat du prix Turing 2019, ou Christopher Ré, qui a contribué à promouvoir la notion d'IA en tant que "logiciel 2.0" ces dernières années. Hyène réalise le même que ChatGPT avec moins de formation et beaucoup moins de traitement.

Bien que le programme OpenAI, ChatGPT, mérite toute l'admiration qui lui a été portée ces derniers temps, la réalité est qu'il s'agit à peine d'un logiciel plus complexe que d'habitude. Mais un qui nécessite énormément d'entraînement pour fonctionner et nécessite une puissance remarquable pour répondre à des défis de plus en plus complexes. Et c'est là qu'il peut commencer à échouer.

ChatGPT

Tout a commencé en 2017 lorsque Ashish Vaswani, alors l'un des responsables de la recherche de Google, a présenté le programme Transformer AI, la fondation ou le père des programmes d'IA actuels. Le problème est que Le transformateur avait un gros défaut . Pour effectuer les tâches, il utilise ce qu'on appelle "l'attention": le programme reçoit les informations dans un groupe de symboles, tels que des mots, et déplace ces informations vers un nouveau groupe de symboles, tels que la réponse que nous voyons dans ChatGPT.

Cette opération d'attention, l'outil essentiel de tous les programmes actuels, y compris ChatGPT et GPT-4, a une complexité de calcul «quadratique». Cela signifie essentiellement que le temps qu'il faut pour que ChatGPT génère une réponse augmente à mesure que le carré de l'information qu'il reçoit .

Autrement dit, s'il y a trop de données (trop de mots, de lignes de discussion ou de pixels d'une image), le programme a besoin de plus de puissance informatique pour répondre. Et ce besoin se multiplie de lui-même jusqu'à atteindre une limite où il ne répond plus adéquatement.

Dans un article récent, une équipe de scientifiques de l'Université de Stanford et de l'institut canadien MILA a proposé une technologie qui pourrait être beaucoup plus efficace que GPT-4 et l'a nommée Hyena. Les auteurs incluent Michael Poli de Stanford et Yoshua Bengio, directeur scientifique de MILA et lauréat du prix Turing 2019 (l'équivalent informatique du prix Nobel). Bengio est crédité d'avoir développé le mécanisme d'attention bien avant que le programme Transformer de Google n'existe. Ils sont rejoints par Christopher Ré, qui a contribué ces dernières années à promouvoir la notion d'IA comme « logiciel 2.0 ». Allez, une intéressante sélection de cerveaux spécialisés.

Des performances multipliées par 100

Pour démontrer la capacité de Hyena, les auteurs l'ont soumise à différents tests. L'un d'eux est connu sous le nom de The Pile, une collection de textes de 825 gigaoctets ( équivalent à plus de 250,000 XNUMX livres ) réunis en 2020 par Eleuther.ai, une équipe de recherche en IA à but non lucratif. Les textes sont obtenus à partir de sources "de haute qualité" telles que PubMed, arXiv, GitHub, l'Office américain des brevets et autres, de sorte que l'information est plus rigoureuse que les discussions que l'on peut voir sur Twitter.

Le programme Hyena a obtenu un score équivalent à ChatGPT, mais avec 20 % d'opérations de calcul en moins. Dans d'autres tâches, Hyena a obtenu des scores égaux ou proches d'une version de GPT même s'il était formés sur moins de la moitié des données.

Mais, et voici la chose intéressante, lorsque l'équipe de Poli a augmenté la demande sur Hyena (plus de données ont été demandées et l'échange a augmenté avec le temps), le programme s'est mieux comporté. À 2,048 64,000 jetons, qui peuvent être considérés comme des mots, Hyena prend moins de temps pour terminer une tâche linguistique que GhatGPT, mais au moment où ils atteignent XNUMX XNUMX jetons, les auteurs notent que » Les accélérations de Hyena atteignent 100x », une amélioration des performances. de cent fois

Comme si tout cela ne suffisait pas, le programme est beaucoup plus petit que GPT-4 ou même GPT-3. Alors que GPT-3, par exemple, compte 175 milliards de paramètres, la plus grande version de Hyena n'en compte que 1.3 milliard. C'est-à-dire qu'il a cent fois l'amélioration des performances quand il est le plus demandé… avec cent fois moins de paramètres. Une avancée plus qu'intéressante et qui pourrait laisser à ChatGPT un très beau souvenir… tant que ça a duré.