Una sezione indispensabile per avere un quadro completo della situazione ed il relativo controllo dove possibile è rappresentata dalla possibilità di verificare quali contenuti del vostro sito sono effettivamente indicizzati.
Questo capitolo contiene un Tutorial su come creare un file di controllo "robot.txt" per il vostro sito.
Suggeriamo di tenere sotto controllo gli spiders più rilevanti.
Oltre alle evidenti ragioni che rendono utile il controllo delle pagine indicizzate, può anche essere utile in alcuni casi nascondere dei contenuti ai motori di ricerca, cosa che può essere fatta tramite il controllo del suddetto file.
Tuttavia se tutte le pagine del sito comportano contenuti di valore, non è affatto necessario nascondere delle parti.
Perchè è necessario il controllo
Se state ad esempio cercando di aggiornare il vostro sito su una versione a tematiche, ad esempio, probabilmente preferite che lo spider visiti i contenuti più attuali che avete preparato per loro.
D'altro canto se state riorganizzando completamente il vostro sito, potete lasciare le "vecchie" pagine visibili agli utenti (in attesa di offrire loro la versione completa ed aggiornata), ma evitare allo spider di rivedere pagine già visitate ed obsolete.
Dunque, potreste avere diverse e valide ragioni per tenere lo spider lontano da alcune pagine. Se avete ad esempio installato un forum online, la visita allo stesso da parte dello spider è una perdita di tempo e può provocare un appesantimento del vostro server; ci possono essere tanti altri validi motivi.
Alcuni spiders non seguono il "robot exclusion protocol", il protocollo che consente l'esclusione di contenuti dalla visita dello spider e quindi non ci sono opzioni che ne consentano il controllo.
L'esempio peggiore di questo tipo di robot è lo SPAMbot o "screen scraper": questi robot sondano continuamente il web alla ricerca di indirizzi Email. Quando ottengono un indirizzo, lo utilizzano per l'invio di Junkmail e Spam.
A questo indirizzo trovate un semplice metodo per "nascondere" l'indirizzo email a questi simpatici ficcanaso…
http://www.insideoutmarketing.com/index.php?p=pages&pid=15
robots.txt Tutorial
Il file "robots.txt" è un semplice file di testo che viene caricato nella Root Directory del vostro sito.
Gli spiders cercano questo file e lo analizzano, prima di visitare il vostro sito. Per semplificare la procedura lavoriamo su un esempio.
Il più semplice robots.txt file è il seguente
User-agent: *
Disallow:
Tutto qui ! la prima linea identifica lo user agent: se mettete asterisco, significa che la stringa seguente si applica a tutti gli agents.
Lo spazio bianco che segue "disallow" (letteralmente "impedisci", non consentire) significa che niente è off-limits.
Questo file robots dunque, non comporta nulla: consente a tutti gli user agents di vedere tutto il contenuto del sito.
Ora, vediamo di complicarci l'esistenza… Ad esempio decidiamo di tenere tutti gli spiders lontani dalla nostra /Faq directory.
User-agent: *
Disallow: /faq/
Semplice. Gli slash sono indispensabili per indicare che si tratta di una directory. Senza gli slash, verrà impedito l'accesso non solo alla directory, ma a tutti i files con estensione faq.
Si possono aggiungere altre directories alla stringa Disallow:
User-agent: *
Disallow: /faq/
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /info/about/
Le cose si complicano se vogliamo impedire l'accesso ad un solo file:
User-agent: *
Disallow: about.html
Disallow: /faq/faqs.html
Tutto quanto sopra è valido per tutti gli spiders (abbiamo infatti sempre indicato valore * alla stringa agent).
Se vogliamo applicare la regola ad un solo determinato spider, basta usarne il nome:
User-agent: googlebot
Disallow /faq/
Possiamo anche combinare singoli spiders con diverse istruzioni.
Ad esempio, impedire a Google l'accesso all'intero sito, mentre tutti gli altri spiders potranno avere accesso a tutto il sito tranne che alla directory Faq:
User-agent: googlebot
Disallow: /
User-agent: *
Disallow /faq/
Ogni record nel file robots.txt consiste in uno user-agent seguito da una o più directories che si vogliono nascondere.
E' necessario lasciare una linea vuota tra uno user-agent e il successivo per consentire allo spider di leggere correttamente.
Potete anche aggiungere dei commenti, impiegando il carattere cancelletto #:
# keep spiders out of the faq directory
User-agent: *
Disallow: /faq/
Per la creazione del file robots.txt potete usare un qualunque editor di testi salvando in formato web: potete ancora più semplicemente impiegare il notepad.
Se volete la vita semplice, potete scaricare un software di creazione del file robots.txt che potete trovare qui in versione gratuita limitata o a pagamento: http://www.rietta.com/robogen/
Elenco Robots per User-Agent
Per poter facilmente impiegare il file robots.txt, vi elenchiamo di seguito una lista dei robots più conosciuti e funzionali da inserire nella stringa User-agent.
In realtà ci sono centinaia di spiders e robots, molti dei quali inutili o addirittura fastidiosi se non pericolosi per il rischio Spam.
Se riuscite a gestire quelli sopra citati, è più che sufficiente.
Una volta conosciuti i nomi dei principali robots, potete inoltre facilmente verificare se gli stessi hanno fatto visita o meno alle vostre pagine.
è infatti sufficiente accedere ai LOG del sito e verificare se i suddetti Users sono tra i visitatori.
Semplice ed efficace.
Scopeo garantisce ritorno di business dal web.