Robots.txt: che cos’è e a cosa serve?

Il file robots.txt pur essendo molto importante per chi fa SEO viene spesso sottovalutato. Il robots.txt è un semplice file di testo che specifica alcune direttive agli spider dei motori di ricerca al fine di regolarne l’accesso a specifiche zone. Queste direttive sono note come “Robots Exclusion Standard”.

Ma prima di proseguire, ricordiamoci cos’è lo spider. Come abbiamo già detto parlando di crawling, indexing e ranking, lo spider (detto anche crawler o robot) è un software che analizza i contenuti di un sito web per conto del motore di ricerca. Il compito dello spider è scansioare le pagine web, acquisirle e inserirle nell’indice.

Ci sono circa 200/300 spider più o meno conosciuti, come Black Widow, e per ogni spider c’è una scheda informativa. Conoscere il nome dei vari bot può essere utile qualora decidessi di usare il file robots per dare accesso al sito ad alcuni bot e negarlo ad altri. Il bot sicuramente più conosciuto è Googlebot.

Come si crea

Il file robots.txt può essere creato in diversi modi:

puoi realizzarlo tu stesso usando un comune editor di testo
crearlo online con Search Console
con uno script per la generazione automatica

Alcuni CMS possiedono un file robots pregenerato all’installazione o usano plugin per crearlo e gestirlo. Una volta creato deve essere inserito nella “root” del sito per funzionare correttamente. La root del sito è dove ha sede il file index del sito. Per vedere se funziona dobbiamo digitare sul browser http://www.miosito.it/robots.txt.

Com’è fatto

Il robots è costituito da blocchi detti record, ognuno dei quali comprende obbligatoriamente 2 campi:

User-agent: serve ad indicare il nome dello spider al quale si rivolgono le direttive (es. User-agent: Googlebot). Il campo User-agent può essere anche usato per rivolgersi a tutti i bot;
Disallow: serve ad indicare a quali file e/o directory non può accedere lo spider indicato in User-agent (es. Disallow: /immagini/).

A cosa serve

Come anticipato, il file robots.txt contiene direttive che indicano agli spider dei motori di ricerca quali parti del nostro sito possono scansionare e quali, invece, non devono scansionare. La bravura e conseguentemente il vantaggio consiste proprio nel compilare tale file in modo che gli spider possano accedere ai contenuti importanti del sito e, al tempo stesso, limitare la scansione dei contenuti meno importanti.

I motori di ricerca verificano costantemente il file robots.txt per verificare le direttive per la scansione. Se un sito non presenta il file robots.txt oppure non contiene direttive, gli spider eseguiranno automaticamente la scansione dell’intero sito.

Indicazioni di questo genere possono essere utili, ad esempio, quando il tuo sito ha delle pagine ancora “in cotruzione” e non vuoi che vengano indicizzate.

Le direttive più utilizzate sono:

allow
disallow
noindex
nofollow
sitemap

Quindi, il file robots.txt torna utile perché grazie ad esso possiamo bloccare l’indicizzazione di alcuni contenuti del nostro sito.

Perché ottimizzare il file robots.txt?

Il file robots.txt svolge un ruolo essenziale nella SEO, poiché indica agli spider come possono eseguire la scansione di un sito nel modo più ottimizzato possibile senza sprecare budget.

Con le direttive date al file robots.txt possiamo impedire ai motori di ricerca l’accesso ad alcune sezioni del nostro sito, prevenire contenuti duplicati e fornire loro indicazioni utili su come eseguire la scansione in modo più efficace.

Infatti, i motori di ricerca hanno un tempo limitato per scansionare il nostro sito (definito dal crawl budget) e questo tempo dovrebbe essere speso solo per le pagine strategiche che vogliamo posizionare ed evitare le pagine che non sono utili.

Alternativa: il meta tag ROBOTS

Tuttavia, c’è un’alternativa al file robots.txt che prende il nome di meta tag ROBOTS. Si tratta di un meta tag html con la stessa funzione del robots.txt ma che agisce su singole pagine.

Infatti, il difetto di questo tag, a differenza del file robots.txt, è che bisogna scrivere su tutte le pagine per dare le direttive allo spider del motore di ricerca, mentre con il file robots.txt bastano poche righe di comando per dare una regola globale per tutto il sito e non passare da pagina a pagina.

Ma attenzione

Anche se possiamo dare queste direttive al file robots.txt o al meta tag ROBOTS, Comunque il file e queste ultime non sono un obbligo da seguire per gli spider, bensì sono solo dei suggerimenti. Gli spider possono lo stesso indicizzare le pagine per cui non era gradita ma non sarà un problema, anche perché al successivo passaggio del crawler se rinviamo la sitemap al motore di ricerca l’indicizzazione dovrebbe cancellare quella precedente.