Chega Hyena, a IA que faz ChatGPT de bobo

Por trás deste programa estão nomes muito ilustres no campo da inteligência artificial, como Yoshua Bengio, vencedor do Turing Award 2019, ou Christopher Ré, que ajudou a promover a noção de IA como “software 2.0” nos últimos anos. Hiena consegue o mesmo que ChatGPT com menos treinamento e muito menos processamento.

Embora o programa OpenAI, ChatGPT, mereça toda a admiração que lhe foi dada ultimamente, a realidade é que dificilmente é um software mais complexo do que o habitual. Mas um que requer uma quantidade enorme de treinamento para funcionar e requer um poder notável para responder a desafios cada vez mais complexos. E é aí que pode começar a falhar.

ChatGPT

Tudo começou em 2017, quando Ashish Vaswani, então um dos líderes de pesquisa do Google, apresentou o programa Transformer AI, a fundação ou pai dos atuais programas de IA. O problema é que Transformer tinha uma grande falha . Para realizar as tarefas usa o que se chama de “atenção”: o programa recebe a informação em um grupo de símbolos, como palavras, e move essa informação para um novo grupo de símbolos, como a resposta que vemos no ChatGPT.

Essa operação de atenção, ferramenta essencial de todos os programas atuais, incluindo ChatGPT e GPT-4, tem complexidade computacional “quadrática”. Isso basicamente significa que o tempo que leva para que o ChatGPT gere uma resposta aumenta conforme o quadrado da informação que recebe .

Ou seja, se houver muitos dados (muitas palavras, muitas linhas de chat ou pixels de uma imagem), o programa precisará de mais potência do computador para responder. E essa necessidade se multiplica por si mesma até chegar a um limite em que não responde mais adequadamente.

Em um artigo do artigo recente, uma equipe de cientistas da Universidade de Stanford e do instituto MILA do Canadá propôs uma tecnologia que poderia ser muito mais eficiente que o GPT-4 e a chamou de Hyena. Os autores incluem Michael Poli, de Stanford, e Yoshua Bengio, diretor científico da MILA e vencedor do Prêmio Turing 2019 (o equivalente em ciência da computação ao Prêmio Nobel). Bengio é creditado com o desenvolvimento do mecanismo de atenção muito antes do programa Transformer do Google existir. A eles se junta Christopher Ré, que ajudou nos últimos anos a promover a noção de IA como “software 2.0”. Vamos lá, uma seleção interessante de cérebros especializados.

Desempenho multiplicado por 100

Para demonstrar a habilidade da Hiena, os autores a submeteram a diferentes testes. Um deles é conhecido como The Pile, uma coleção de textos de 825 gigabytes ( equivalente a mais de 250,000 livros ) montado em 2020 pela Eleuther.ai, uma equipe de pesquisa de IA sem fins lucrativos. Os textos são obtidos de fontes de “alta qualidade” como PubMed, arXiv, GitHub, US Patent Office e outros, portanto as informações são mais rigorosas do que as discussões que podem ser vistas em Twitter.

O programa Hyena alcançou uma pontuação equivalente ao ChatGPT, mas com 20% menos operações de computação. Em outras tarefas, a Hyena obteve pontuações iguais ou próximas a uma versão do GPT, embora fosse treinado em menos da metade dos dados.

Mas, e aí vem o interessante, quando a equipe do Poli aumentou a demanda do Hyena (foram solicitados mais dados e a troca foi aumentando com o tempo), o programa se comportou melhor. Com 2,048 tokens, que podem ser considerados como palavras, o Hyena leva menos tempo para concluir uma tarefa de linguagem do que o GhatGPT, mas quando atingem 64,000 tokens, os autores observam que ” Aceleração de hiena atinge 100x ”, uma melhoria de desempenho. de cem vezes

Como se tudo isso não bastasse, o programa é muito menor que o GPT-4 ou mesmo o GPT-3. Enquanto o GPT-3, por exemplo, tem 175 bilhões de parâmetros, a maior versão do Hyena tem apenas 1.3 bilhão. Ou seja, tem cem vezes a melhoria de desempenho quando é mais exigido… com cem vezes menos parâmetros. Um avanço mais do que interessante e que poderia deixar o ChatGPT como uma lembrança muito boa… enquanto durou.