Os “Jogos vorazes” da IA: um lucrativo mercado de dados está explodindo
Recentemente, Mark Zuckerberg falou que a maior vantagem da Meta em IA é o fato de contar com um enorme e crescente conjunto de dados internos para treinar seus modelos Llama.
Segundo ele, no Facebook e no Instagram, existem “centenas de bilhões de imagens compartilhadas publicamente e dezenas de bilhões de vídeos públicos”.
Mas alguns especialistas pensam diferente: os dados de treinamento necessários para os modelos Meta, OpenAI ou Antrópicos são apenas o começo da compreensão de como os dados funcionam para sustentar a “fome” dos grandes modelos de linguagem atuais.
Quando se trata do crescente apetite da IA por dados, o que importa mesmo é a inferência contínua exigida por todas as grandes empresas que usam APIs LLM – isto é, a capacidade de executar dados em tempo real por meio de um modelo de IA treinado toda vez que fizer uma previsão ou resolver uma tarefa.
“[A inferência é] o mercado maior, mas não creio que as pessoas estão percebendo isso”, disse Brad Schneider, fundador e CEO da Nomad Data, que ele descreve como um ‘mecanismo de busca de dados’.
A empresa de Nova York, fundada em 2020, construiu seus próprios LLMs para ajudar a combinar mais de 2.500 fornecedores de dados com compradores de dados, o que inclui um número “explosivo” de empresas que precisam de conjuntos de dados muitas vezes obscuros e altamente específicos para poder, em linguagem natural, pesquisar tipos específicos de dados.
Tomemos como exemplo uma seguradora que começou a vender seus dados na plataforma Nomad; No mesmo dia em que listaram, lembrou Schneider, “alguém fez uma busca por informações muito específicas sobre acidentes de carro, tipos de danos e volumes de danos – e sequer sabia que eram chamados de dados de seguros.” A demanda e a oferta foram correlacionadas instantaneamente, “como mágica.”
Os dados de treinamento são importantes, mas mesmo que você tenha os dados perfeitos para treinar o modelo, eles serão treinados uma vez – ou ocasionalmente, quando houver novos dados. Já a inferência pode acontecer milhares de vezes a cada minuto. E para as grandes empresas que procuram tirar partido da IA generativa, essa alimentação constante de dados é igualmente importante, dependendo do caso de utilização.
O problema sempre foi encontrar o “alimento” de dados certo. Para a típica grande empresa, começar com dados internos será um caso de uso importante. Mas, no passado, adicionar dados de texto externos mais “nutritivos” era quase impossível. Agora, os LLMs podem inferir coisas com base em milhões de registros de consumidores, registros de empresas ou registros governamentais em segundos.
Fonte: VentureBeat
Descubra Como usar IA no Comércio Varejo e porque as empresas estão investindo em IA! É nelas onde as marcas...