Sem robôs (. txt): como pedir ao ChatGPT e ao Google Bard para não usar o seu sítio na Internet para treinamento

Tanto OpenAI e Google têm lançado orientação para sítios na Internet cujos os proprietários não querem que as empresas usam o contente de seus sítios para treinaram os modelos grandes de linguagem (LLMs) das empresas. Ha muito tempo apoiamos o direito de poder ‘raspar’ sítios - o processo de usar um computador para carregar e ler páginas de um sitio para análise posterior - como uma ferramenta para pesquisa , jornalismo e arquivadores . Acreditamos que esse prática é ainda legal em relação a coleta dados de treinamento para IA generativa, mas se algo deveria ser ilegal é diferente do que deve ser considerado desrespeitoso, desajeitado ou desagradável. À medida que as normas sobre o que que tipos de raspagem e para que serve os dados raspados são considerados aceitável continuam a ser desenvolvidas, é útil ter ferramenta para operadores de sítios que automaticamente avisa suas preferências para os raspadores. Pedir a OpenAI e Google (e qualquer outro que opta por honrar sua preferência) para não incluir dados do seu sitio em seus modelos é um processo fácil, desde que possa acessar a estrutura de arquivos do seu sitio.

Já falamos antes sobre como esses modelos usam arte para treinamento , e a ideia geral e o processo é o mesmo para texto. Ha muito tempo, pesquisadores tem usado coleções de dados raspados da internet para estudos de censura, programas maliciosas, sociologia, linguagem e outros aplicações, incluindo IA generativa. Hoje, tanto pesquisadores acadêmicos e dos por fins lucrativos coletam dados de treinamento para IA usando robôs que saiam procurando tudo na internet e “raspam” ou armazenam o conteúdo de cada sitio que encontram. Esse pode ser usado para criar ferramentas puramente baseado em texto ou um sistema poder coletar imagens que podem estar associadas com certos textos e tente decifrar associações entre as palavras e imagens durante o treinamento. O resultado final, pelo menos atualmente, são os robôs que vimos na forma do Google Bard e ChatGPT .

Deixaria muita gente mais à vontade em relação a outras empresas com produtos de IA semelhantes, como Anthropic, Amazon e inúmeros outras, se declarassem que respeitarão solicitações semelhantes .

Se não quer que o conteúdo dos seus sítios seja utilizado para este treinamento, pode solicitar aos robôs operados Google e Open AI para não raspar seu sitio. Tenha em mente que esse apenas aplica-se para raspagens futuras. Se Google ou OpenAI já conseguiram os dados de seu sitio, não vão remove-los. Também não evite as outras empresas incontáveis treinando seus próprios LLMs e não afeta nada que já publicou em outro lugar, como nas redes sociais ou fóruns. Também não pararia modelos que são treinados sobre grandes conjuntos de dados de sítios raspado que não são afiliados com alguma empresa específica. Para exemplo, GPT-3 da OpenAI e Llama da Meta ambos foram treinados usando dados principalmente coletados de Common Crawl, um repositório de código aberto de grande porções da internet que é rotineiramente usado para pesquisas importantes. Você pode bloquear o rastreamento comum, mas fazer isso bloqueia o raspador de usar seus dados em todos seus conjuntos de dados, muitos de quais tem nada a ver com IA.

Não há tecnicamente requerimento que o robô tem que obedecer às solicitações. Atualmente apenas Google e OpenAI Quem declararam que assim pode optar por não deixar usar, assim outras empresas de IA poderão não se aderir a isso, ou poderiam adicionar outras instruções para optar por deixar usar seus dados. Também isso não bloqueia outros tipos de raspagem que são usados para pesquisas ou outros meios, então se você geralmente fica a favor de raspagem, mas esteja inquieto com o uso do conteúdo do seu sitio no conjunto de treinamento de IA de uma empresa, este é um passo que você pode dar.

Antes de falar de como fazer, devemos explicar o que exatamente estará editando ao fazer isso.

O que é Robots.txt?

Para poder pedir que essas empresas não raspam seu sitio, precisa editar(ou criar) um arquivo localizado no seu sitio chamado "robots.txt". Robots.txt é um conjunto de instruções para robôs e raspadores da web. Até agora, era principalmente usados para fornecer informação útil aos serviços de busca na medida que seus robôs iam raspando a internet. Se proprietários de sítios querem pedir que um serviço de busca particular ou robô não raspasse seu sitio, podem entrar isso em arquivo robots.txt. Os robôs sempre podem resolver ignorar isso, mas muitos serviços de raspagem respeitam a solicitação.

Pode tudo isso parecer muito técnico, mas é realmente nada mais do que um pequeno arquivo de texto localizado na pasta raiz de seu sitio, como "https://www.example.com/robots.txt". Qualquer um pode ver este arquivo em qualquer sitio. Para exemplo , aqui está o robots.txt do New York Times, que atualmente bloqueia tanto ChatGPT e Bard.

Se você opere seu próprio sitio, deve ter forma de acessar a estrutura de arquivos dele, quer através portal web ou FTP do seu provedor de hospedagem. Talvez terá que pesquisar na documentação do provedor para entender como acessar a pasta. Na maioria dos casos, seu sitio já tem robots.txt criado , mesmo se isso estiver em branco, mas se precisar criar um arquivo, pode fazer isso com qualquer simples editor de texto. Google tem orientação sobre como fazer isso aqui .

A EFF não usara estes bloqueios porque acreditamos que a raspagem é ferramenta poderoso para pesquisas e acesso à informação.

O que deve incluir em seu Robots.txt para bloquear ChatGPT e Google Bard

Já que chegamos aqui, a seguir é o que deve incluir em seu arquivo robots.txt do seu sitio se não quer que ChatGPT e Google usam o conteúdo de seu sitio para treinarem seus modelos generativos de IA. Se quer que todo o sitio seja coberto, adicione esses linhas no seu arquivo robots.txt:

ChatGPT

User-agent: GPTBot

Disallow: /

Google Bard

User-agent: Google-Extended

Disallow: /

Também pode limitar para bloquear acesso para apenas certas pastas do sitio. Por exemplo, talvez você não se importa se a maioria dos dados do sitio sejam utilizados para treinamento, mas tem um blogue que usa como um diário. Você pode optar para excluir pastas específicas. Por exemplo, se o blogue for localizado em yoursite.com/blog, você acrescentaria isto:

ChatGPT

User-agent: GPTBot

Disallow: /blog

Google Bard

User-agent: Google-Extended

Disallow: /blog

Como mencionado acima, nós da EFF não usaremos estes textos de bloqueio porque acreditamos que a raspagem seja uma ferramenta poderosa para pesquisa e acesso à informação; queremos que publicamos seja espalhada por toda parte e ser representado nos resultados e respostas oferecidos por LLMs. Claro, cada proprietário de sitio terá pontos de vista diferentes sobre seus blogues, portfólios, ou seja o que for que tenha nos seus sítios. Somos a favor que as pessoas tenham meios para expressar suas preferências, e isso deixaria muitas pessoas mais à vontade em relação a outras empresas com produtos de IA semelhantes , como Anthropic, Amazon e inúmeros outras, se declarassem que irão respeitar solicitaçõe

Security Education

Join EFF Lists

Related Updates

Deeplinks Blog by Corynne McSherry | August 19, 2024

NO FAKES – A Dream for Lawyers, a Nightmare for Everyone Else

Performers and ordinary humans are increasingly concerned that they may be replaced or defamed by AI-generated imitations. We’re seeing a host of bills designed to address that concern – but every one just generates new problems. Case in point: the NO FAKES Act. We flagged numerous flaws in a “discussion...

Deeplinks Blog by Cory Doctorow | June 28, 2024

How the FTC Can Make the Internet Safe for Chatbots

No points for guessing the subject of the first question the Wall Street Journal asked FTC Chair Lina Khan: of course it was about AI.Between the hype, the lawmaking, the saber-rattling, the trillion-dollar market caps, and the predictions of impending civilizational collapse, the AI discussion has become as...

Deeplinks Blog by Matthew Guariglia | May 8, 2024

What Can Go Wrong When Police Use AI to Write Reports?

Axon—the makers of widely-used police body cameras and tasers (and that also keeps trying to arm drones)—has a new product: AI that will write police reports for officers. Draft One is a generative large language model machine learning system that reportedly takes audio from body-worn cameras...

Deeplinks Blog by Corynne McSherry | April 29, 2024

Congress Should Just Say No to NO FAKES

There is a lot of anxiety around the use of generative artificial intelligence, some of it justified. But it seems like Congress thinks the highest priority is to protect celebrities – living or dead. Never fear, ghosts of the famous and infamous, the U.S Senate is on it. We’ve already...

Deeplinks Blog by Matthew Guariglia | March 20, 2024

The Tech Apocalypse Panic is Driven by AI Boosters, Military Tacticians, and Movies

There has been a tremendous amount of hand wringing and nervousness about how so-called artificial intelligence might end up destroying the world. The fretting has only gotten worse as a result of a U.S. State Department-commissioned report on the security risk of weaponized AI.Whether these messages come from...

Deeplinks Blog by Cooper Quintin | January 31, 2024

Worried About AI Voice Clone Scams? Create a Family Password

Your grandfather receives a call late at night from a person pretending to be you. The caller says that you are in jail or have been kidnapped and that they need money urgently to get you out of trouble. Perhaps they then bring on a fake police officer or kidnapper...

Deeplinks Blog by Corynne McSherry | January 19, 2024

The No AI Fraud Act Creates Far More Problems Than It Solves

Creators have reason to be wary of the generative AI future. For one thing, while GenAI can be a valuable tool for creativity, it may also be used to deceive the public and disrupt existing markets for creative labor. Performers, in particular, worry that AI-generated images and music...

Deeplinks Blog by Jacob Hoffman-Andrews | January 5, 2024

AI Watermarking Won't Curb Disinformation

Generative AI allows people to produce piles upon piles of images and words very quickly. It would be nice if there were some way to reliably distinguish AI-generated content from human-generated content. It would help people avoid endlessly arguing with bots online, or believing what a fake image purports to...

Deeplinks Blog by Jason Kelley | November 16, 2023

To Best Serve Students, Schools Shouldn’t Try to Block Generative AI, or Use Faulty AI Detection Tools

Generative AI gained widespread attention earlier this year, but one group has had to reckon with it more quickly than most: educators. Teachers and school administrators have struggled with two big questions: should the use of generative AI be banned? And should a school implement new tools to detect when...

Whitepaper

Privacy First: A Better Way to Address Online Harms

ContentsExecutive Summary Breaking it Down: What Does Comprehensive Data Privacy Legislation Look Like?Sketching the Landscape: What Real Privacy Protections Might Accomplish Protecting Children’s Mental Health Supporting Journalism Protecting Access to Healthcare Fostering Digital Justice Alleviating Generative AI Anxiety Inhibiting Foreign Government...

Security Education

Search form

Search form

O que é Robots.txt?

O que deve incluir em seu Robots.txt para bloquear ChatGPT e Google Bard

ChatGPT

Google Bard

ChatGPT

Google Bard

Related Issues

Related Issues

Search form

Search form

Sem robôs (. txt): como pedir ao ChatGPT e ao Google Bard para não usar o seu sítio na Internet para treinamento

Sem robôs (. txt): como pedir ao ChatGPT e ao Google Bard para não usar o seu sítio na Internet para treinamento

O que é Robots.txt?

O que deve incluir em seu Robots.txt para bloquear ChatGPT e Google Bard

ChatGPT

Google Bard

ChatGPT

Google Bard

Related Issues

Join EFF Lists

Discover more.

Related Updates

Discover more.

Related Issues

Follow EFF:

Contact

About

Issues

Updates

Press

Donate