Logotipo IT Forum
IT Forum Instituto Itaqui Distrito Itaqui IT Invest
IT Forum - A Comunidade de Tecnologia se Encontra Aqui
  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • IA
  • Cibersegurança
  • Plataformas
  • ESG
  • Vídeos
  • Nossas colunas
  • Colunistas
  • Pesquisas
  • Prêmios
Revistas
  • IT Forum Líderes
  • Series
  • Histórias da TI
  • Ver todos
  • Todos os eventos
  • IT Forum Trancoso
  • IT Forum Forte
  • IT Forum Mata
  • Sobre o HIT
  • Todos os materiais
Todas as notícias Negócios Liderança CIO Carreira IA Cibersegurança Plataformas ESG Vídeos
Nossas colunas Colunistas
Pesquisas Prêmios
Revistas
Todos os videocasts E agora, TI? Entre Tech IT Forum Líderes Series
Todos os eventos Trancoso
Todos os materiais Todos os materiais
  1. Home
  2. Notícias
  3. Inteligência Artificial
  4. A origem dos dados na IA: quem controla o que os algoritmos aprendem?
dados
IA

A origem dos dados na IA: quem controla o que os algoritmos aprendem?

Novas descobertas mostram como as fontes de dados estão concentrando poder nas mãos das maiores empresas de tecnologia

Publicado:
02/01/2025 às 18:36
Redação
Redação
Leitura
5 minutos
dados coletados IA gartner, governança de dados
Imagem: Shutterstock

A construção da inteligência artificial depende fundamentalmente de dados. Modelos de IA são treinados com volumes massivos de informações, e a qualidade desses dados determina os resultados que a tecnologia entrega. No entanto, há um problema estrutural: muitos desenvolvedores e pesquisadores desconhecem as origens precisas dos dados que utilizam. A coleta de informações para IA ainda é um campo imaturo quando comparado à sofisticação dos modelos desenvolvidos, e grandes conjuntos de dados frequentemente carecem de documentação clara sobre sua procedência.

Foi essa lacuna que motivou a criação da Iniciativa de Proveniência de Dados, um grupo formado por mais de 50 pesquisadores de diferentes instituições acadêmicas e do setor privado. O objetivo do grupo era responder a uma questão central: de onde vêm os dados que alimentam a IA? Para isso, realizaram uma auditoria em quase quatro mil conjuntos de dados públicos, abrangendo mais de 600 idiomas, 67 países e um período de três décadas. Descobriram que essas informações foram extraídas de 800 fontes distintas e quase 700 organizações.

As conclusões, compartilhadas com exclusividade pela MIT Technology Review, apontam para um cenário preocupante: o uso de dados na IA tende a concentrar poder em poucas grandes empresas de tecnologia.

Leia também: Após biênio de crescimento, Grupo Kakau quer internacionalização para os EUA e América Latina

No início da década de 2010, os conjuntos de dados eram montados a partir de múltiplas fontes, como enciclopédias, transcrições parlamentares, relatórios meteorológicos e chamadas de ganhos financeiros. Segundo Shayne Longpre, pesquisador do MIT e integrante do projeto, esses conjuntos eram organizados para atender a tarefas específicas. Entretanto, a invenção dos modelos baseados em transformadores, em 2017, alterou essa dinâmica.

Com a constatação de que modelos maiores e mais abrangentes geravam melhores resultados, a coleta de dados passou a ser feita de forma indiscriminada na internet. Desde 2018, a web tornou-se a principal fonte de dados para IA, abrangendo diferentes mídias, como áudio, imagens e vídeos.

Com a crescente demanda por escala, o uso de dados sintéticos também se intensificou. Nos últimos anos, modelos multimodais — capazes de gerar não apenas texto, mas também vídeos e imagens — passaram a ser treinados com quantidades cada vez maiores de dados extraídos de plataformas como o YouTube. Mais de 70% dos conjuntos de dados utilizados para modelos de vídeo, por exemplo, vêm dessa única fonte, o que confere uma vantagem estratégica à Alphabet, controladora do Google. Enquanto textos estão dispersos por múltiplos sites, os dados de vídeo são altamente centralizados.

Esse monopólio levanta questões sobre como o Google disponibilizará esses dados para concorrentes, aponta Sarah Myers West, codiretora-executiva do AI Now Institute. Além disso, Longpre ressalta que, ao moldar infraestruturas digitais, as grandes empresas de tecnologia impõem suas próprias lógicas e interesses ao desenvolvimento da IA.

Outro problema apontado pelos pesquisadores é a falta de transparência na utilização de dados por parte das empresas de IA. Em muitos casos, as companhias sequer sabem a origem exata das informações utilizadas para treinar seus modelos. Restrições de uso, como licenças que impedem a exploração comercial de determinados conjuntos de dados, também são frequentemente ignoradas. Estudos mostram que 25% dos dados textuais, 33% dos de fala e 32% dos de vídeo possuem restrições que deveriam impedir seu uso para fins lucrativos.

Recentemente, algumas empresas, como OpenAI e Google, firmaram acordos exclusivos com editores, fóruns e plataformas de redes sociais, garantindo acesso a dados específicos. Isso, segundo Longpre, pode fragmentar a internet em zonas de acesso privilegiado, onde apenas grandes corporações conseguem obter determinados conjuntos de dados, em detrimento de pesquisadores independentes e organizações menores.

Outro aspecto relevante da pesquisa é a desigualdade geográfica na construção dos conjuntos de dados. Mais de 90% das informações analisadas pelos pesquisadores provêm da Europa e América do Norte, enquanto menos de 4% têm origem na África. A predominância da língua inglesa e a falta de infraestrutura de internet em algumas regiões explicam parcialmente essa disparidade. No entanto, há também um fator de conveniência: coletar e organizar dados em outros idiomas demanda esforço adicional.

Esse viés ocidental se torna ainda mais evidente em modelos multimodais. Um sistema de IA treinado para representar eventos, como um casamento, pode acabar reproduzindo apenas cerimônias ocidentais, apagando outras tradições culturais. Para Sara Hooker, vice-presidente de pesquisa da Cohere, isso reforça visões de mundo centradas nos Estados Unidos e ignora a diversidade global.

*Com informações do MIT Tech Review

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Seta para cima
Mais lidas
Notícias

SEIAS moderniza gestão com Sonda Ativas

8 anos atrás

1
Carreira

Coursera: mulheres são apenas 32% dos matriculados em cursos de IA generativa

1 ano atrás

2
Negócios

Qualcomm adquire Ventana Micro Systems e expande domínio em chips RISC-V

3 meses atrás

3
Notícias

Gestão de riscos atrai profissionais que buscam qualificação

9 anos atrás

4
Inteligência Artificial

IFS anuncia aquisição da Copperleaf

2 anos atrás

5
Logo IT Forum
Newsletter
As melhores notícias de tecnologia B2B em primeira mão
Acompanhe todas as novidades diretamente na sua caixa de entrada.
Instagram Linkedin Facebook Tiktok Youtube
1 / 1
dados
IA
Autor
Redação
Redação
LinkedIn

A redação contempla textos de caráter informativo produzidos pela equipe de jornalistas do IT Forum.

Ver publicações deste autor
Notícias relacionadas
Ver mais Seta para direita
Notícias relacionadas
Ver mais Seta para direita
Capital cognitivo híbrido, o próximo capital das organizações
Gestão
Capital cognitivo híbrido, o próximo capital das organizações

Heriton Duarte

1 mês atrás

Dilema da IA está entre escalar produtividade e preservar confiança
Inteligência Artificial
Dilema da IA está entre escalar produtividade e preservar confiança

Déborah Oliveira

1 mês atrás

“O varejo não compete mais por canal, mas por capacidade de movimentar produtos”, diz CIO da Motz
Inteligência Artificial
“O varejo não compete mais por canal, mas por capacidade de movimentar produtos”, diz CIO da Motz

Pamela Sousa

1 mês atrás

Xerox anuncia nova estrutura global para o mercado da Print
Negócios
Xerox anuncia nova estrutura global para o mercado da Print

Redação

1 mês atrás

Conectando a tecnologia e o futuro dos negócios

Insights e inovações para líderes no IT Forum.

Conteúdos

  • Notícias
  • Colunas
  • Pesquisas
  • Series
  • Revistas
  • Videocasts
  • Eventos

Notícias

  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • Inteligência Artificial
  • Cibersegurança
  • Plataformas
  • Sustentabilidade
  • Vídeos

IT Forum

  • Sobre nós
  • Envie seu Release
  • Mídia Kit
  • Contato
  • Expediente
  • Cultura
  • Distrito Itaqui
  • Anuncie
  • Notícias
  • Colunas
  • Pesquisas
  • Series
  • Revistas
  • Videocasts
  • Eventos
  • Todas as notícias
  • Negócios
  • Liderança
  • CIO
  • Carreira
  • Inteligência Artificial
  • Cibersegurança
  • Plataformas
  • Sustentabilidade
  • Vídeos
  • Sobre nós
  • Envie seu Release
  • Mídia Kit
  • Contato
  • Expediente
  • Cultura
  • Distrito Itaqui
  • Anuncie

Logo do IT Forum
Estr. Dr. Yojiro Takaoka, 4601 - Ingahi, Itapevi - SP, 06696-050
Icone Instagram Icone Linkedin Icone Facebook Icone TikTok Icone YouTube
  • Link Política de privacidade
  • Link Fale conosco
  • Link Termos de uso
  • Link Trabalhe conosco
Copyright © 2026 IT FORUM - Todos os Direitos Reservados