Tanto OpenAI e Google têm lançado orientação para sítios na Internet cujos os proprietários não querem que as empresas usam o contente de seus sítios para treinaram os modelos grandes de linguagem (LLMs) das empresas. Ha muito tempo apoiamos o direito de poder ‘raspar’ sítios - o processo de usar um computador para carregar e ler páginas de um sitio para análise posterior - como uma ferramenta para pesquisa , jornalismo e arquivadores . Acreditamos que esse prática é ainda legal em relação a coleta dados de treinamento para IA generativa, mas se algo deveria ser ilegal é diferente do que deve ser considerado desrespeitoso, desajeitado ou desagradável. À medida que as normas sobre o que que tipos de raspagem e para que serve os dados raspados são considerados aceitável continuam a ser desenvolvidas, é útil ter ferramenta para operadores de sítios que automaticamente avisa suas preferências para os raspadores. Pedir a OpenAI e Google (e qualquer outro que opta por honrar sua preferência) para não incluir dados do seu sitio em seus modelos é um processo fácil, desde que possa acessar a estrutura de arquivos do seu sitio.
Já falamos antes sobre como esses modelos usam arte para treinamento , e a ideia geral e o processo é o mesmo para texto. Ha muito tempo, pesquisadores tem usado coleções de dados raspados da internet para estudos de censura, programas maliciosas, sociologia, linguagem e outros aplicações, incluindo IA generativa. Hoje, tanto pesquisadores acadêmicos e dos por fins lucrativos coletam dados de treinamento para IA usando robôs que saiam procurando tudo na internet e “raspam” ou armazenam o conteúdo de cada sitio que encontram. Esse pode ser usado para criar ferramentas puramente baseado em texto ou um sistema poder coletar imagens que podem estar associadas com certos textos e tente decifrar associações entre as palavras e imagens durante o treinamento. O resultado final, pelo menos atualmente, são os robôs que vimos na forma do Google Bard e ChatGPT .
Deixaria muita gente mais à vontade em relação a outras empresas com produtos de IA semelhantes, como Anthropic, Amazon e inúmeros outras, se declarassem que respeitarão solicitações semelhantes .
Se não quer que o conteúdo dos seus sítios seja utilizado para este treinamento, pode solicitar aos robôs operados Google e Open AI para não raspar seu sitio. Tenha em mente que esse apenas aplica-se para raspagens futuras. Se Google ou OpenAI já conseguiram os dados de seu sitio, não vão remove-los. Também não evite as outras empresas incontáveis treinando seus próprios LLMs e não afeta nada que já publicou em outro lugar, como nas redes sociais ou fóruns. Também não pararia modelos que são treinados sobre grandes conjuntos de dados de sítios raspado que não são afiliados com alguma empresa específica. Para exemplo, GPT-3 da OpenAI e Llama da Meta ambos foram treinados usando dados principalmente coletados de Common Crawl, um repositório de código aberto de grande porções da internet que é rotineiramente usado para pesquisas importantes. Você pode bloquear o rastreamento comum, mas fazer isso bloqueia o raspador de usar seus dados em todos seus conjuntos de dados, muitos de quais tem nada a ver com IA.
Não há tecnicamente requerimento que o robô tem que obedecer às solicitações. Atualmente apenas Google e OpenAI Quem declararam que assim pode optar por não deixar usar, assim outras empresas de IA poderão não se aderir a isso, ou poderiam adicionar outras instruções para optar por deixar usar seus dados. Também isso não bloqueia outros tipos de raspagem que são usados para pesquisas ou outros meios, então se você geralmente fica a favor de raspagem, mas esteja inquieto com o uso do conteúdo do seu sitio no conjunto de treinamento de IA de uma empresa, este é um passo que você pode dar.
Antes de falar de como fazer, devemos explicar o que exatamente estará editando ao fazer isso.
O que é Robots.txt?
Para poder pedir que essas empresas não raspam seu sitio, precisa editar(ou criar) um arquivo localizado no seu sitio chamado "robots.txt". Robots.txt é um conjunto de instruções para robôs e raspadores da web. Até agora, era principalmente usados para fornecer informação útil aos serviços de busca na medida que seus robôs iam raspando a internet. Se proprietários de sítios querem pedir que um serviço de busca particular ou robô não raspasse seu sitio, podem entrar isso em arquivo robots.txt. Os robôs sempre podem resolver ignorar isso, mas muitos serviços de raspagem respeitam a solicitação.
Pode tudo isso parecer muito técnico, mas é realmente nada mais do que um pequeno arquivo de texto localizado na pasta raiz de seu sitio, como "https://www.example.com/robots.txt". Qualquer um pode ver este arquivo em qualquer sitio. Para exemplo , aqui está o robots.txt do New York Times, que atualmente bloqueia tanto ChatGPT e Bard.
Se você opere seu próprio sitio, deve ter forma de acessar a estrutura de arquivos dele, quer através portal web ou FTP do seu provedor de hospedagem. Talvez terá que pesquisar na documentação do provedor para entender como acessar a pasta. Na maioria dos casos, seu sitio já tem robots.txt criado , mesmo se isso estiver em branco, mas se precisar criar um arquivo, pode fazer isso com qualquer simples editor de texto. Google tem orientação sobre como fazer isso aqui .
A EFF não usara estes bloqueios porque acreditamos que a raspagem é ferramenta poderoso para pesquisas e acesso à informação.
O que deve incluir em seu Robots.txt para bloquear ChatGPT e Google Bard
Já que chegamos aqui, a seguir é o que deve incluir em seu arquivo robots.txt do seu sitio se não quer que ChatGPT e Google usam o conteúdo de seu sitio para treinarem seus modelos generativos de IA. Se quer que todo o sitio seja coberto, adicione esses linhas no seu arquivo robots.txt:
ChatGPT
User-agent: GPTBot
Disallow: /
Google Bard
User-agent: Google-Extended
Disallow: /
Também pode limitar para bloquear acesso para apenas certas pastas do sitio. Por exemplo, talvez você não se importa se a maioria dos dados do sitio sejam utilizados para treinamento, mas tem um blogue que usa como um diário. Você pode optar para excluir pastas específicas. Por exemplo, se o blogue for localizado em yoursite.com/blog, você acrescentaria isto:
ChatGPT
User-agent: GPTBot
Disallow: /blog
Google Bard
User-agent: Google-Extended
Disallow: /blog
Como mencionado acima, nós da EFF não usaremos estes textos de bloqueio porque acreditamos que a raspagem seja uma ferramenta poderosa para pesquisa e acesso à informação; queremos que publicamos seja espalhada por toda parte e ser representado nos resultados e respostas oferecidos por LLMs. Claro, cada proprietário de sitio terá pontos de vista diferentes sobre seus blogues, portfólios, ou seja o que for que tenha nos seus sítios. Somos a favor que as pessoas tenham meios para expressar suas preferências, e isso deixaria muitas pessoas mais à vontade em relação a outras empresas com produtos de IA semelhantes , como Anthropic, Amazon e inúmeros outras, se declarassem que irão respeitar solicitaçõe