Informazioni sui file robots.txt
Il file robots.txt è un protocollo abbastanza semplice che permette di dialogare con i motori di ricerca segnalando determinate informazioni.
Data la sua estrema semplicità, il file robots è in formato testo (.txt) ed indica quali pagine o directory da sottoporre o NON sottoporre a scansione dai crawler dei motori di ricerca (o spider) ma sopratutto viene indicato anche quali agenti accettare (agente è un ulteriore termine per intendere crawler, spider o webbot dei motori di ricerca).
Di seguito l’esempio di una struttura tipica di un file robots:
User-agent: *
Disallow: /nome-directory-da-bloccare/
Disallow: /nome-pagina-da-bloccare.html
User-agent: l’asterisco lascia intendere che tutti gli spider dei motori di ricerca hanno accesso alla consultazione ed eventuale scansione delle pagine del sito web. E’ possibile escludere determinati agenti.
Es.:
User-agent: libwww
Disallow: /
Disallow: attraverso questa direttiva viene specificato che la directory o pagina web non deve essere inclusa negli indici dei motori.
In assenza di particolari esigenze il file robots.txt può essere presentato nel seguente modo:
User-agent: *
Allow:
in questo caso attraverso la direttiva Allow tutte le pagine verranno sottoposte a scansione.
Ulteriori direttive:
User-agent: *
Disallow: /nome-directory-da-bloccare/ # Blocca la directory /nome-directory-da-bloccare/
Caricare successivamente tramite FTP il file robots.txt all’interno della root principale del sito. Ad esempio per il sito della WRA il file robots.txt è stato caricato nel percorso principale ed è raggiungibile dal seguente percorso: https://www.wra.it/robots.txt
Maggiori informazioni sul file robots: http://www.robotstxt.org/
Lista dei Robots più noti: http://www.robotstxt.org/db.html (attenzione fonte frequentemente aggiornabile)
Leave A Comment?
You must be logged in to post a comment.