Come si compila il file robots.txt?

Come si compila il file robots.txt?

Cosa è il file robots.txt?

Il file robots.txt è un file di testo che può essere creato con qualsiasi editor di testi (vanno benissimo notepad per window oppure pluma o gedit su linux) e che caricato nella root di un sito internet (cioè nella cartella principale) indica ai crawlers o spiders quello che possono e non possono prelevare e quindi indicizzare o meno.

I Bot presenti sul web vengono spessi chiamati anche spiders, oppure crawlers e sono dei semplici programmini che analizzano ricorsivamente le pagine aperte sul web seguendo ogni link che trovano.

Da qui l'esigenza di trovare un meccanismo che impedisca ai robots di accedere indistintamente ad ogni server e consenta di porre delle limitazioni: questo è lo scopo principale del robots.txt.

La sintassi del file robots.txt deve essere la seguente:

User-agent: Googlebot
Disallow: /privato/
Disallow: /admin/
Allow: /privato/esempio.html

Vediamo cosa significa:

  • User-agent: è il campo che continene il nome del robot che deve rispettare le restrizioni. Aggiungendo il carattere * la restrizione viene estesa a qualsiasi robot.
  • Disallow è il campo che disabilita (to disallow in inglese significa appunto non permettere, disabilitare) le pagine, le directory o le cartelle del vostro sito che non volete assolutamente che vengano "viste" e quindi indicizzate dai motori di ricerca. In un unico file robot si possono aggiungere sia più righe di disallow che più righe di user agent.
  • C'è anche la possibilità di aggiungere il comando Allow, che significa "permettere".  Questo comando, indica di escludere alcuni file o cartelle dalla disabilitazione, e quindi ne permette l'indicizzazione. 
  • Altra funzione viene svolta dallo / (slash) da aggiungere subito dopo il Disallow: questa indica di non indicizzare tutto quello che c'è dopo la barra.

Queste sono le indicazioni base da seguire per la compilazione del vostro file robots.txt