Cientistas fizeram uma mente

Os pesquisadores estão começando a desvendar um dos maiores mistérios por trás dos modelos de linguagem AI que alimentam ferramentas de geração de texto e imagem como DALL-E e ChatGPT.

Já há algum tempo, especialistas e cientistas em aprendizado de máquina notaram algo estranho sobre modelos de linguagem grandes (LLMs) como o GPT-3 da OpenAI e o LaMDA do Google: eles são inexplicavelmente bons em realizar tarefas para as quais não foram especificamente treinados. É uma questão desconcertante e apenas um exemplo de como pode ser difícil, se não impossível na maioria dos casos, explicar como um modelo de IA chega a seus resultados com detalhes minuciosos.

Em um próximo estudo publicado no servidor de pré-impressão arXiv, pesquisadores do Instituto de Tecnologia de Massachusetts, da Universidade de Stanford e do Google exploram esse fenômeno "aparentemente misterioso", chamado de "aprendizagem no contexto". Normalmente, para realizar uma nova tarefa, a maioria dos modelos de aprendizado de máquina precisa ser treinada novamente em novos dados, um processo que normalmente pode exigir que os pesquisadores insiram milhares de pontos de dados para obter a saída que desejam - um esforço tedioso e demorado.

Mas com o aprendizado no contexto, o sistema pode aprender a executar novas tarefas de maneira confiável a partir de apenas alguns exemplos, essencialmente adquirindo novas habilidades em tempo real. Depois de receber um prompt, um modelo de linguagem pode obter uma lista de entradas e saídas e criar novas previsões, muitas vezes corretas, sobre uma tarefa para a qual não foi explicitamente treinado. Esse tipo de comportamento é um bom presságio para a pesquisa de aprendizado de máquina, e desvendar como e por que isso ocorre pode gerar informações valiosas sobre como os modelos de linguagem aprendem e armazenam informações.

Mas qual é a diferença de um modelo que aprende e não apenas memoriza?

“O aprendizado está emaranhado com o conhecimento [existente]”, disse Ekin Akyürek, principal autor do estudo e aluno de doutorado no MIT, ao Motherboard. “Mostramos que é possível que esses modelos aprendam com exemplos em tempo real, sem nenhuma atualização de parâmetro que aplicamos ao modelo”.

Isso significa que o modelo não está apenas copiando dados de treinamento, mas provavelmente com base no conhecimento anterior, assim como humanos e animais fariam. Os pesquisadores não testaram sua teoria com o ChatGPT ou qualquer outra das ferramentas populares de aprendizado de máquina pelas quais o público se apaixonou tanto ultimamente. Em vez disso, a equipe de Akyürek trabalhou com modelos menores e tarefas mais simples. Mas como eles são o mesmo tipo de modelo, seu trabalho oferece informações sobre as porcas e parafusos de outros sistemas mais conhecidos.

Os pesquisadores conduziram seu experimento fornecendo ao modelo dados sintéticos ou prompts que o programa nunca poderia ter visto antes. Apesar disso, o modelo de linguagem foi capaz de generalizar e depois extrapolar o conhecimento deles, disse Akyürek. Isso levou a equipe a levantar a hipótese de que os modelos de IA que exibem aprendizado no contexto, na verdade, criam modelos menores dentro de si mesmos para realizar novas tarefas. Os pesquisadores puderam testar sua teoria analisando um transformador, um modelo de rede neural que aplica um conceito chamado "autoatenção" para rastrear relacionamentos em dados sequenciais, como palavras em uma frase.

Ao observá-lo em ação, os pesquisadores descobriram que seu transformador poderia escrever seu próprio modelo de aprendizado de máquina em seus estados ocultos ou no espaço entre as camadas de entrada e saída. Isso sugere que é teoricamente e empiricamente possível que os modelos de linguagem aparentemente inventem, por si mesmos, "algoritmos de aprendizado bem conhecidos e extensivamente estudados", disse Akyürek.

Em outras palavras, esses modelos maiores funcionam criando e treinando internamente modelos de linguagem menores e mais simples. O conceito é mais fácil de entender se você o imaginar como um cenário de computador dentro de um computador no estilo Matryoshka.

Dos resultados da equipe, o cientista do Facebook AI Research, Mark Lewis, disse em um comunicado que o estudo é um “trampolim para entender como os modelos podem aprender tarefas mais complexas e ajudará os pesquisadores a projetar melhores métodos de treinamento para modelos de linguagem para melhorar ainda mais seu desempenho. "

Notícias