Chegou a vez de uma mini Inteligência Artificial?
Analistas destacam que a criação de modelos de Inteligência Artificial menores e acessíveis pode democratizar o poder da aprendizagem automática, beneficiando indivíduos, produtos e empresas.
Embora os LLMs (Grandes Modelos de Linguagem) sejam destaque na IA Generativa, sua impraticidade para pesquisadores na criação de novos modelos para ferramentas e produtos é evidente, mesmo nos casos de código aberto.
Com mais de 100 bilhões de parâmetros, esses modelos exigem poder computacional caro tanto para treinamento quanto para execução.
Até agora pensava-se que maior significava melhor – modelos maiores treinados com mais dados teriam melhor desempenho.
No entanto, “muitas vezes é possível criar um modelo muito menor que pode fazer uma coisa muito bem”, diz Graham Neubig, professor de ciência da computação na Universidade Carnegie Mellon. “Não precisa fazer tudo.”
Os pesquisadores estão tentando reduzir os modelos para que tenham menos parâmetros, mas possam ter um bom desempenho em tarefas especializadas.
Uma abordagem é a “destilação do conhecimento”, que envolve o uso de um modelo maior, o “professor”, para treinar um modelo menor, o “aluno”.
Em vez de aprender com o conjunto de dados usado para treinar o professor, o aluno imita o professor.
Em um experimento, Neubig e seus colaboradores criaram um modelo 700 vezes menor que um modelo GPT e descobriram que ele superava o maior em três tarefas de processamento de linguagem natural, diz ele.
Os modelos de alunos podem imitar os seus professores, mas ainda não fazem isso de forma perfeita. “Há uma longa lista de tarefas onde [os modelos menores] ainda não são tão bons”, diz Sara Hooker, que lidera o Cohere for AI, o laboratório de pesquisa de IA sem fins lucrativos da Cohere.
“Há muita coisa que não sabemos – como podemos garantir que os dados que obtemos de um modelo grande sejam suficientemente diversos para cobrir todas essas tarefas?” confessa.
Outra abordagem concentra-se no fato de que modelos maiores tendem a apresentar muita dispersão — muitas das bilhões de conexões entre dois nós em uma rede têm valor nulo. Mas ainda são processadas e usam poder computacional.
O objetivo é construir modelos menores e mais densos com menos desses nós nulos, mas que tenham desempenho equivalente aos modelos maiores.
Fonte: Axios Science
https://www.axios.com/newsletters/axios-science-f53d4920-3623-45ba-a64c-633cafb91c47.html
Descubra como a IA pode impactar no trabalho, inclusive no relacionamento com os colegas e proteção de dados de clientes....