Nesta quarta-feira, 3, a Cloudflare ofereceu aos clientes de hospedagem web uma maneira de impedir que bots de IA extraíssem conteúdo de sites e usassem os dados sem permissão para treinar modelos de aprendizado de máquina.
A empresa fez isso com base na aversão dos consumidores aos bots de IA e "para ajudar a preservar uma internet segura para os criadores de conteúdo", afirmou em um comunicado. "Ouvimos claramente que os clientes não querem bots de IA visitando seus sites, especialmente aqueles que o fazem desonestamente. Para ajudar, adicionamos um novo clique para bloquear todos os bots de IA."
Já existe um método relativamente eficaz para bloquear bots que está amplamente disponível para proprietários de sites, o arquivo robots.txt . Quando colocados no diretório raiz de um site, espera-se que os rastreadores automatizados da web percebam e cumpram as diretivas no arquivo que os informam para ficarem de fora.
Dada a crença generalizada de que a IA generativa é baseada em roubo e os muitos processos judiciais que tentam responsabilizar as empresas de IA, as empresas que traficam conteúdo lavado gentilmente permitiram que os editores da web optassem por não participar do roubo.
Em agosto passado, a OpenAI publicou orientações sobre como bloquear seu rastreador GPTbot usando uma diretiva robots.txt, presumivelmente ciente da preocupação sobre ter conteúdo raspado e usado para treinamento de IA sem consentimento. O Google tomou medidas semelhantes no mês seguinte. Também em setembro do ano passado, a Cloudflare começou a oferecer uma maneira de bloquear bots de IA que respeitam as regras, e 85% dos clientes – alega-se – habilitaram esse bloqueio.
Agora, o negócio de serviços de rede visa fornecer uma barreira mais robusta à entrada de bots. A internet está "agora inundada com esses bots de IA", disse, que visitam cerca de 39 por cento das principais um milhão de propriedades da web atendidas pela Cloudflare.
O problema é que o robots.txt, assim como o cabeçalho Do Not Track implementado em navegadores há quinze anos para declarar uma preferência pela privacidade, pode ser ignorado, geralmente sem consequências.
O problema dos bots de IA ganhou destaque à medida que o boom da IA generativa alimenta a demanda por dados de treinamento de modelos.
Muitos sites, cautelosos com modelos de treinamento de fornecedores de IA em seu conteúdo sem alertá-los ou compensá-los, optaram por bloquear scrapers e crawlers de IA. Cerca de 26% dos 1.000 principais sites da web bloquearam o bot da OpenAI, de acordo com um estudo; outro descobriu que mais de 600 editores de notícias bloquearam o bot.