Modelos de IA usam cada vez mais dados sintéticos – o barato pode sair caro?
Dados sintéticos são aqueles criados por modelos de IA. E eles são cada vez mais usados por Meta, Google, Anthropic e outros, para alimentar seus chatbots, porque dados de alta qualidade feitos por humanos são caros, e há cada vez mais restrições a texto, imagens e outros tipos de dados disponíveis gratuitamente na web.
Mas novas pesquisas ilustram os efeitos potenciais que os dados gerados por IA têm nas respostas que a IA pode nos dar.
Em um cenário, os pesquisadores treinaram um modelo de IA generativo em grande parte em dados gerados por IA. O modelo eventualmente se tornou incoerente: eles o chamaram de um caso de “colapso do modelo” em um artigo publicado na Nature.
A equipe ajustou um grande modelo de linguagem usando um conjunto de dados da Wikipedia, gerou dados do modelo de IA e então os realimentaram no modelo para ajustá-lo novamente. Eles fizeram isso repetidamente, alimentando cada novo modelo com dados gerados pelo anterior.
Eles descobriram que os dados de treinamento são poluídos ao longo das gerações, eventualmente fazendo com que o modelo respondesse com bobagens. Assim, foi solicitado um texto sobre arquitetura medieval e depois de nove gerações estava gerando texto sobre lebres.
O treinamento com dados sintéticos traz riscos particulares para informações de grupos sub-representados de pessoas ou idiomas que não aparecem com frequência em um conjunto de dados.
Em resumo, dizem os analistas, os dados gerados por IA são uma tecnologia incrivelmente útil, mas se você usá-la indiscriminadamente, ela trará problemas.
Fonte: AxiosAI+
https://www.axios.com/newsletters/axios-ai-plus-0772c7c0-4d06-11ef-b125-377fca3caf84.html
Como a Coca-Cola está usando Data Analytics e IA para melhorar o relacionamento com o varejo As mais recentes iniciativas...