robots.txt per AI Bot: Guida Completa a GPTBot, ClaudeBot e PerplexityBot

31 marzo 20267 minSEO
In breveAI

Ottimizza il tuo sito per i bot AI e aumenta il tuo traffico online. Impara a configurare il robots.txt per permettere ai bot di citazione e addestramento di accedere al tuo contenuto, migliorando la tua visibilità nelle risposte AI. Scopri come scegliere cosa permettere e cosa bloccare con la classificazione a 3 livelli dei 16 bot AI più importanti.

Il Tuo robots.txt Probabilmente Blocca il Traffico AI del Futuro

Apri il tuo robots.txt. Cerca “GPTBot”. Cerca “ClaudeBot”. Cerca “PerplexityBot”. Se non trovi nessuno di questi nomi, il tuo sito non ha istruzioni esplicite per i bot AI. E questo è un problema.

Il robots.txt di default di WordPress contiene 4 righe: User-agent, Disallow per wp-admin, Allow per wp-admin/admin-ajax.php, e Sitemap. Nessuna menzione dei bot AI. Questo significava poco nel 2023. Nel 2026, significa perdere un canale di traffico in crescita.

Questo articolo ti dà la configurazione completa del robots.txt per i 16 bot AI che contano, con la classificazione a 3 livelli che ti permette di scegliere cosa permettere e cosa bloccare.

I 16 Bot AI e la Classificazione a 3 Livelli

Non tutti i bot AI sono uguali. Alcuni crawlano il tuo sito per addestrare i modelli (training). Altri lo crawlano per citarti nelle risposte (search/citation). La differenza è enorme.

GEO Optimizer classifica 16 bot in 3 livelli:

Livello 1: Citation (Search) Bots

Questi bot cercano fonti per citarle nelle risposte. Bloccarli = non vieni mai citato.

Bot Proprietario Funzione
OAI-SearchBot OpenAI Recupera e cita fonti in ChatGPT Search
ClaudeBot Anthropic Citazioni web nelle risposte di Claude
Claude-SearchBot Anthropic Ricerca web dedicata per Claude
PerplexityBot Perplexity AI Costruisce l’indice di fonti citabili
Bingbot Microsoft Alimenta Microsoft Copilot (e Bing)

Raccomandazione: PERMETTI SEMPRE. Questi bot sono il tuo canale verso le citazioni AI. Bloccarli è come bloccare Googlebot.

Livello 2: Training Bots

Questi bot raccolgono contenuto per addestrare i modelli linguistici. Non ti citano direttamente.

Bot Proprietario Funzione
GPTBot OpenAI Training dataset per i modelli GPT
Google-Extended Google Training per Gemini e AI Overview
anthropic-ai Anthropic Training dataset per Claude
CCBot Common Crawl Dataset open usato da molti modelli
Bytespider ByteDance Training per i modelli TikTok/Douyin

Raccomandazione: SCELTA TUA. Se vuoi che il tuo contenuto contribuisca al training (e potenzialmente influenzi le risposte future), permetti. Se preferisci proteggere il contenuto dal training, blocca. La decisione non influisce sulle citazioni dirette.

Eccezione: Google-Extended. Bloccare questo bot potrebbe ridurre la tua visibilità nelle Google AI Overview, che sono un ibrido tra search e training. Valuta caso per caso.

Livello 3: User Bots

Questi bot accedono al tuo sito su richiesta diretta dell’utente (es: “leggi questa pagina per me”).

Bot Proprietario Funzione
ChatGPT-User OpenAI Fetch on-demand quando un utente condivide un URL
meta-externalagent Meta AI di Facebook/Instagram accede a link condivisi
Applebot-Extended Apple Siri e Apple Intelligence
cohere-ai Cohere API di ricerca AI enterprise
Amazonbot Amazon Alexa e AI Amazon
FacebookExternalHit Meta Preview dei link condivisi su Facebook

Raccomandazione: PERMETTI. Questi bot portano il tuo contenuto direttamente all’utente che lo ha richiesto. Bloccarli peggiora l’esperienza utente senza benefici.

Il robots.txt Completo per WordPress

Ecco la configurazione che raccomandiamo. Copia e adatta al tuo dominio:

Versione “Aperto a tutto” (massima visibilità AI)

# robots.txt - WordPress + AI Bots
# Generato seguendo le raccomandazioni GEO Optimizer
# https://github.com/Auriti-Labs/geo-optimizer-skill

# === CITATION BOTS (vuoi essere citato) ===
User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Bingbot è già permesso di default ma esplicitiamo
User-agent: Bingbot
Allow: /

# === TRAINING BOTS (il tuo contenuto entra nei modelli) ===
User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: anthropic-ai
Allow: /

# === USER BOTS (richieste dirette degli utenti) ===
User-agent: ChatGPT-User
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: meta-externalagent
Allow: /

# === REGOLE WORDPRESS STANDARD ===
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tuosito.com/sitemap.xml

Versione “Citation only” (citazioni sì, training no)

# robots.txt - WordPress + AI (solo citation, no training)

# === PERMETTI CITATION BOTS ===
User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Bingbot
Allow: /

# === BLOCCA TRAINING BOTS ===
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# === PERMETTI USER BOTS ===
User-agent: ChatGPT-User
Allow: /

User-agent: Applebot-Extended
Allow: /

# === WORDPRESS STANDARD ===
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://tuosito.com/sitemap.xml

Come Modificare robots.txt su WordPress

Metodo 1: plugin SEO (più semplice)

Rank Math: vai in Rank Math → Impostazioni Generali → Modifica robots.txt. Editor integrato.

Yoast SEO: vai in Yoast → Strumenti → Editor file → robots.txt.

Entrambi sovrascrivono il robots.txt virtuale di WordPress con uno personalizzabile.

Metodo 2: file fisico (più controllo)

Crea un file robots.txt e caricalo nella root del tuo WordPress (/var/www/html/ o equivalente). Questo ha priorità sul robots.txt virtuale generato da WordPress.

Attenzione: se usi un plugin SEO che gestisce robots.txt E hai un file fisico, il file fisico vince. Scegli un metodo e usa quello.

Metodo 3: GEO Optimizer fix (automatico)

# Genera il robots.txt patch
geo fix --url https://tuosito.com --only robots

# Genera e scrivi su disco
geo fix --url https://tuosito.com --only robots --apply

Il comando analizza il robots.txt esistente e genera una patch con le regole mancanti per i bot AI. Non sovrascrive le regole esistenti, aggiunge quelle che mancano.

Errori Comuni

“Disallow: /” per tutti gli user-agent

Il più grave. Un Disallow: / senza specificare lo user-agent blocca TUTTI i bot, inclusi Googlebot e i bot AI. Se hai questa riga nel robots.txt, rimuovila immediatamente (a meno che tu non voglia che il sito sia completamente deindicizzato).

Confondere GPTBot con OAI-SearchBot

GPTBot raccoglie dati per il training. OAI-SearchBot cerca fonti per le citazioni. Sono due bot diversi con scopi diversi. Se vuoi essere citato da ChatGPT ma non vuoi contribuire al training, permetti OAI-SearchBot e blocca GPTBot.

robots.txt in sottodirectory

Il robots.txt deve essere nella root del dominio: https://tuosito.com/robots.txt. Non in /blog/robots.txt, non in /wp-content/robots.txt. Solo nella root.

Non verificare dopo le modifiche

Dopo ogni modifica, verifica con:

# Controlla che il file sia accessibile
curl -s https://tuosito.com/robots.txt

# Audit completo con GEO Optimizer
geo audit --url https://tuosito.com

Come Verificare i Crawl dei Bot AI

Il robots.txt dice ai bot cosa possono fare. Ma stanno effettivamente crawlando il tuo sito? Controlla i log.

# Nginx: cerca i bot AI negli access log
grep -E "GPTBot|OAI-SearchBot|ClaudeBot|PerplexityBot|ChatGPT-User" /var/log/nginx/access.log | tail -30

# Apache
grep -E "GPTBot|OAI-SearchBot|ClaudeBot|PerplexityBot" /var/log/apache2/access.log | tail -30

# Conta i crawl per bot negli ultimi 7 giorni
for bot in GPTBot OAI-SearchBot ClaudeBot PerplexityBot; do
  count=$(grep -c "$bot" /var/log/nginx/access.log 2>/dev/null || echo 0)
  echo "$bot: $count crawl"
done

Se non vedi nessun crawl dai bot AI dopo una settimana dalla configurazione del robots.txt, due possibilità: il sito è troppo nuovo (poca autorità, il bot non ha ancora scoperto il dominio) oppure il robots.txt ha ancora problemi. Lancia geo audit per verificare.

FAQ

Se non ho robots.txt, i bot AI possono crawlare il mio sito?

Sì. L’assenza di robots.txt è generalmente interpretata come “tutto permesso” dalla maggior parte dei bot. Ma non è una configurazione ideale: stai lasciando la decisione al bot invece di controllarla. E perdi 20 punti nell’audit GEO. Aggiungi il file.

Quanto spesso i bot AI crawlano un sito?

Dipende dall’autorità del dominio e dalla frequenza di aggiornamento. Siti attivi con contenuto nuovo vengono crawlati più spesso (GPTBot può passare più volte al giorno su siti ad alta autorità). Siti statici con poco traffico possono essere crawlati una volta a settimana o meno.

Posso bloccare il training ma permettere le citazioni?

Sì, usando la classificazione a 3 livelli. Blocca GPTBot, Google-Extended e anthropic-ai (training). Permetti OAI-SearchBot, ClaudeBot, PerplexityBot (citation). I due gruppi sono indipendenti.

Il robots.txt è legalmente vincolante?

No. Il robots.txt è un protocollo volontario. I bot “buoni” (Google, OpenAI, Anthropic, Perplexity) lo rispettano. Bot malevoli o scraper lo ignorano. Per protezione legale del contenuto serve il copyright e i termini di servizio, non il robots.txt.

Gestisci i siti WordPress dei tuoi clienti?

AgencyPilot ti dà report AI, uptime monitoring, backup e portale clienti in un’unica dashboard. Gratis per 3 siti.

Prova gratis
Leggi anche
Tutti gli articoli
Tutti gli articoli