Meta lança bots que burlam restrições para coletar dados na web

Postado em: 23/08/2024 | Por: Emerson Alves

A Meta, empresa controladora de plataformas como Facebook e Instagram, desenvolveu novos bots capazes de driblar regras de proteção na web e coletar dados para treinamento de seus modelos de Inteligência Artificial (IA).

A Meta, liderada por Mark Zuckerberg, introduziu recentemente novos bots projetados para rastrear a web e extrair dados que alimentam seus modelos de Inteligência Artificial e outros produtos da empresa. Segundo informações do Business Insider, esses bots, como o Meta-ExternalFetcher, têm a capacidade de coletar dados para IA e indexar conteúdos, e podem até contornar as instruções de robots.txt, uma prática que permite que sites indiquem quais páginas não devem ser acessadas por bots.

Como funcionam os novos bots da Meta

O Meta-ExternalFetcher realiza duas funções principais: coleta dados de treinamento para modelos de IA e indexa o conteúdo encontrado. Já o Meta-ExternalAgent é utilizado para casos de uso como treinamento de IA ou melhoria de produtos por meio da indexação direta de conteúdo. A combinação dessas funções em um único bot torna mais difícil para os sites bloquear a ação dessas ferramentas. A startup Originality.ai, especializada em detectar conteúdo gerado por IA, destacou que apenas 1% dos principais sites conseguiu bloquear o Meta-ExternalFetcher.

O robots.txt é um arquivo de texto que, desde o final dos anos 1990, orienta os bots sobre quais páginas podem ou não ser acessadas em um site. No entanto, como não há penalidades para quem ignora essas diretrizes, as grandes empresas de tecnologia têm cada vez mais ignorado essas regras na busca por construir os melhores modelos de IA.

O dilema dos proprietários de sites

A situação coloca os proprietários de sites em um dilema: enquanto desejam evitar que empresas como a Meta extraiam seus dados para treinamento de IA, muitos ainda querem que seus sites sejam indexados para atrair mais visitantes. Jon Gillham, CEO da Originality.ai, argumenta que “as empresas devem fornecer aos sites a capacidade de bloquear os dados de serem usados para treinamento de IA, sem reduzir a visibilidade do conteúdo nas plataformas”.

Em resposta às críticas, um porta-voz da Meta afirmou ao Business Insider que a empresa está tentando “tornar mais fácil para os editores indicarem suas preferências” em relação ao uso de seus dados para treinamento de IA. “Como outras empresas, treinamos nossos modelos generativos de IA em conteúdo disponível publicamente online. Reconhecemos que alguns editores e proprietários de domínios da web querem opções quando se trata de seus sites e IA generativa”, disse o porta-voz em um e-mail.

Contexto e impacto no Brasil

Essa ação da Meta acontece pouco depois de a Justiça Federal de São Paulo ter concedido uma liminar contra o WhatsApp, também controlado pela Meta, determinando a suspensão do compartilhamento de dados não criptografados de usuários no Brasil. A decisão visa proteger os consumidores brasileiros de práticas que, segundo o Ministério Público Federal (MPF), violam o Código de Defesa do Consumidor (CDC), o Marco Civil da Internet e a Lei Geral de Proteção de Dados (LGPD).

A liminar também obriga o WhatsApp a oferecer uma forma clara e objetiva para que os usuários decidam se desejam ou não compartilhar seus dados com outras empresas da Meta, como Facebook e Instagram. Lucas Marcon, advogado do Programa de Telecomunicações e Direitos Digitais do Idec, explicou que a ação é uma resposta à preocupação com a privacidade e o direito à informação dos cidadãos brasileiros.

Meta lança bots que burlam restrições para coletar dados na web

Como funcionam os novos bots da Meta

O dilema dos proprietários de sites

Contexto e impacto no Brasil

Notícias relacionadas