Google Sitemaps è, insieme, un nuovo protocollo ed un'iniziativa di Google per consentire ai webmaster di indicare a Google le pagine che compongono il proprio sito web e assegnare a ciascuna di esse un ordine di priorità e informazioni sulla sua frequenza di aggiornamento.
In questo modo Google sarà in grado di determinare più facilmente quali pagine, all'interno di un sito web, conviene visitare più spesso, la frequenza della visita, nonché la profondità del crawling stesso. Lo spider agirà di conseguenza ed effettuerà il crawling del sito in base alle informazioni fornite dal file Sitemap. C'è di più: questo protocollo è open source, in modo che altri motori di ricerca possano decidere se sfruttarlo o meno.
Sia ben chiaro che questo protocollo è un'aggiunta alle normali attività di spidering di Google, non una sostituzione. Chi non sfrutterà il protocollo Sitemap continuerà a vedere il proprio sito web indicizzato come prima. Chi lo sfrutterà, potrà fornire a Google informazioni utili su ciascun URL che compone il sito web, aumentando la quantità di pagine prelevate dallo spider e la frequenza di indicizzazione, quando opportuno.
Tutto funziona attraverso un file che i webmaster dovranno creare e che descrive la struttura del sito web elencando gli URL delle pagine del sito. Il file deve essere costruito seguendo un preciso formato, chiamato XML Sitemap Format e poi pubblicato in una directory del proprio sito web. Successivamente, l'URL del file va comunicato al motore di ricerca attraverso il pannello di controllo al quale si accede dalla pagina principale di Google Sitemaps oppure attraverso una semplice richiesta HTTP GET:
http://www.google.com/webmasters/sit...o.it/mappa.xml, in modo che il motore possa acquisire l'indirizzo del file con la mappa del sito e sia in grado di accedervi semplicemente scaricandolo dal Web.
L'uso del metodo HTTP GET non rende necessario possedere un account Google per segnalare una mappa, tuttavia coloro che possiedono un account avranno accesso ad un pannello di controllo attraverso il quale sarà possibile tener conto delle mappe segnalate e di come lo spider di Google ha reagito.
Per siti web molto piccoli è teoricamente possibile scrivere a mano il file XML che descrive la mappa del sito. Del resto, si tratta di un normale file di testo ASCII e la documentazione del protocollo Sitemaps è alquanto chiara.
Tuttavia creare file Sitemap per siti con più di una decina di pagine può rivelarsi un lavoro estremamente noioso o improbo. Per tale ragione, Google ha prodotto un Sitemap Generator, uno script in linguaggio Python che va installato in una directory del proprio web server e che è in grado di creare automaticamente un file in formato Sitemap partendo da una lista di directory sul server, o anche da un file di log di Apache, oppure semplicemente indicando al software un file di testo con la lista di URL che compongono il sito web, uno per riga.
Sitemap Generator creerà il file Sitemap in base alla configurazione fornita dal webmaster e lo copierà in una directory del sito specificata dal webmaster. L'URL del file potrà a questo punto essere comunicato a Google attraverso i metodi citati pocanzi o dallo stesso software, che si limita ad effettuare a Google la richiesta GET illustrata sopra.
Ogni file Sitemap può contenere un massimo di 50.000 URL e non deve superare i dieci megabyte; oltre questi valori è indispensabile creare più file Sitemap e un file chiamato Sitemap index che ne contiene un elenco. La descrizione di questo secondo formato è pubblicata sempre nella pagina del protocollo.
Visto che molti webmaster non hanno familiarità con il formato XML e che non tutti sapranno o potranno installare e utilizzare lo script per la generazione automatica dei file Sitemap, aspettatevi un veloce proliferare sul web di strumenti online per la creazione di file Sitemap e la loro comunicazione a Google. Se altri motori di ricerca aderiranno al protocollo Sitemap, tale proliferazione di tool sarà ancora maggiore.
Ecco alcuni URL utili:
https://www.google.com/webmasters/sitemaps
* La pagina di Google Sitemaps. Chi possiede un account Google accederà ad un apposito pannello di controllo.
https://www.google.com/webmasters/si...cs/en/faq.html
* Le FAQ principali.
https://www.google.com/webmasters/si.../protocol.html
* La pagina che descrive il protocollo e il formato dei file Sitemap e Sitemap Index.
https://www.google.com/webmasters/si...generator.html
* La pagina che spiega come installare ed utilizzare sul proprio web server (ma anche sul proprio PC, volendo) il software Python Sitemap Generator.
Segnalo anche un'intervista di Danny Sullivan all'ingegnere Shiva Shivakumar, che riassume bene l'iniziativa.
Fonte:
www.motoricerca.info/news/