Corrida da Meta para superar OpenAI: “Precisamos aprender a construir a fronteira e vencer esta corrida”

Documentos recém-divulgados revelam que a Meta planeja usar o site de pirataria de livros LibGen para treinar seus modelos de IA

Publicado:

17/01/2025 às 12:20

Redação

Leitura

3 minutos

Smartphone exibindo a tela com o texto 'Meta AI' sobre um fundo colorido em tons de azul e rosa. Ao fundo, o logotipo da Meta é parcialmente visível, destacando tecnologias de inteligência artificial desenvolvidas pela empresa (meta ai, whatsapp, meta)

Imagem: Shutterstock

Segundo o The Verge, uma grande ação judicial de direitos autorais contra a Meta revelou uma série de comunicações internas sobre os planos da empresa para desenvolver seus modelos de IA de código aberto, Llama, incluindo discussões sobre como evitar “cobertura da mídia sugerindo que usamos um conjunto de dados que sabemos ser pirateado”.

As mensagens, que fazem parte de uma série de documentos deslacrados por um tribunal da Califórnia, sugerem que a Meta utilizou dados protegidos por direitos autorais no treinamento de seus sistemas de IA e trabalhou para ocultar esse fato enquanto tentava superar concorrentes como OpenAI e Mistral. Trechos dessas mensagens foram revelados pela primeira vez na semana passada.

Em um e-mail de outubro de 2023 para o pesquisador de IA da Meta, Hugo Touvron, Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, afirmou que o objetivo da empresa “precisa ser o GPT-4”, referindo-se ao modelo de linguagem lançado pela OpenAI em março de 2023. Al-Dahle acrescentou que a Meta precisava “aprender a construir a fronteira e vencer essa corrida”. Esses planos aparentemente envolviam o uso do site de pirataria de livros Library Genesis (LibGen) para treinar seus sistemas de IA.

Em um e-mail não datado, o diretor de produto da Meta, Sony Theakanath, enviado à vice-presidente de pesquisa em IA, Joelle Pineau, ponderava se o LibGen deveria ser usado internamente apenas como benchmark ou se deveria ser integrado ao treinamento do modelo. Theakanath mencionou que “a GenAI foi aprovada para usar o LibGen para o Llama3… com uma série de mitigações acordadas”, após escalar a questão para “MZ” — presumivelmente Mark Zuckerberg, CEO da Meta.

Theakanath destacou que “LibGen é essencial para atingir números de ponta (SOTA)” e observou que “é sabido que a OpenAI e a Mistral estão usando a biblioteca em seus modelos (informação não oficial)”. OpenAI e Mistral não confirmaram se utilizam o LibGen.

Os documentos judiciais são parte de uma ação coletiva movida por Richard Kadrey, Sarah Silverman e outros, acusando a Meta de usar conteúdo protegido por direitos autorais de forma ilegal para treinar seus modelos de IA, violando leis de propriedade intelectual. Como outras empresas de IA, a Meta argumenta que o uso de materiais protegidos em dados de treinamento constitui “uso justo”.

Algumas das “mitigações” para o uso do LibGen incluíam remover dados marcados como pirateados e evitar citar externamente o uso de quaisquer dados de treinamento do site. Outras mensagens mostram esforços para mascarar informações de direitos autorais, como remover cabeçalhos de copyright, identificadores de documentos, metadados e até listas de autores para reduzir riscos legais.

No contexto de escassez de dados, líderes de frontier labs, como OpenAI, admitem que há limitações para encontrar novos dados para treinar modelos avançados. Isso levou empresas a buscar métodos alternativos, como pagar criadores digitais por materiais não utilizados.

Com a pressão para avançar rapidamente no desenvolvimento de IA, práticas polêmicas e até mesmo ilegais, como o uso do LibGen, podem se tornar o centro de novos embates judiciais, enquanto empresas como Meta tentam justificar suas estratégias no contexto de uma corrida cada vez mais acirrada.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!