Un bot cattivo

Da ormai 8 mesi sto curando il mio piccolo Blog di Crescita Personale: settimana dopo settimana ho visto le visite crescere, gli iscritti al feed RSS aumentare ed il traffico di Google impennarsi. Fino a maggio, quando sono scomparso da Google. Il Problema Controllando distrattamente le crawl stats nel mio pannello degli Strumenti di Google per Webmaster, noto che il Googlebot ha smesso di visitare il mio blog. “Poco male, sarà andato a prendersi un caffè” penso tra me e me.

Il pre dramma

I giorni passano, la pausa caffè del Googlebot non accenna a terminare, ma in compenso le visite al blog continuano ad aumentare, e negli stessi giorni raggiungo il picco di visitatori da Google, grazie alla keyword “cambiare vita”. “Mah, Big G starà facendo qualche aggiornamento al servizio per webmaster” continuo a pensare da neofita. Neanche un mese e si scatena l’inferno™ (marchio registrato dal Gladiatore): il Blog EfficaceMente svanisce da quasi tutte le SERP di Google e le visite dai motori di ricerca si azzerano. Il dramma.

Il dramma

La Causa Prima un breve flashback: Sfruttando avanzatissime tecniche di memorizzazione ;-), ricollego la pausa caffè del Googlebot ad un down del servizio di hosting del mio blog. Approfondendo la questione ho la certezza che ci sia un legame tra l’azzeramento delle visite da Google e l’ultimo crash del server. Preso dal panico, contatto qualsiasi persona che abbia una connessione ad internet da più di 10 anni, finché finalmente Davide, che sta gentilmente ospitando questo post, mi consiglia di rivolgermi ai ragazzi di Getseen. Nel giro di qualche giorno, grazie ad un’analisi dettagliata e scrupolosa, viene svelato l’arcano: il mio server non restituisce correttamente gli http headers. E perché questo dovrebbe essere un problema? Lo spider di google prima di visitare qualsiasi pagina del tuo sito/blog cerca un file: il file robots.txt. Questo piccolissimo file.txt, presente nella root del tuo dominio, serve per filtrare gli spider dei diversi motori di ricerca e per dare indicazioni su quali pagine possono essere visualizzate dai bot e quali invece non devono essere considerate. In realtà questo file non deve essere indispensabilmente presente. La cosa importante è che il Googlebot cercandolo abbia queste due risposte dal server:

  • status 200. Ok il file è presente, terrò in considerazione il suo contenuto.
  • status 404. Ok il file non è presente, faccio il crawl anche del tuo libretto universitario.

Ma se il tuo server non restituisce correttamente gli http headers… beh hai un problema. Infatti se il Googlebot non riesce a leggere il tuo file robots.txt e non è sicuro che non esista, taglia corto e smette di fare il crawl delle tue pagine. Questo non ha effetti immediati, ma lentamente il tuo sito/blog perde posizioni nelle SERP, finché non avrai neanche una pagina indicizzata da Big G. Insomma, Il robot(s) può cancellarti da Google. Puoi accorgertene facilmente guardando gli errori nel pannello degli Strumenti di Google per Webmaster, se hai un: “robots.txt unreacheable”, sei entrato nel club! 😉 La Soluzione A questo punto hai due alternative: scambi 57 e-mail con il tuo servizio di hosting (il numero di e-mail è reale) senza che siano in grado di risolverti il problema, oppure… cambi servizio di hosting. Dopo il cambio di hosting, il Blog EfficaceMente è tornato lentamente alla normalità, recuperando posizioni nelle SERP e traffico da Google. Morale della favola: forse non avrai bisogno di una Ferrari per il tuo hosting, ma non scegliere un triciclo per risparmiare 1$ al mese. In un precedente Davide ha fatto una bella lista dei migliori hosting per blog. Ti è mai capitato un problema simile? Autore: Andrea Giuliodori (di Efficacemente.com) per il TagliaBlog.