Quando un robot(s) ti cancella da Google

Un bot cattivo

Da ormai 8 mesi sto curando il mio piccolo Blog di Crescita Personale: settimana dopo settimana ho visto le visite crescere, gli iscritti al feed RSS aumentare ed il traffico di Google impennarsi. Fino a maggio, quando sono scomparso da Google.

Il Problema

Controllando distrattamente le crawl stats nel mio pannello degli Strumenti di Google per Webmaster, noto che il Googlebot ha smesso di visitare il mio blog. “Poco male, sarà andato a prendersi un caffè” penso tra me e me.

Il pre dramma

I giorni passano, la pausa caffè del Googlebot non accenna a terminare, ma in compenso le visite al blog continuano ad aumentare, e negli stessi giorni raggiungo il picco di visitatori da Google, grazie alla keyword “cambiare vita”. “Mah, Big G starà facendo qualche aggiornamento al servizio per webmaster” continuo a pensare da neofita.

Neanche un mese e si scatena l’inferno™ (marchio registrato dal Gladiatore): il Blog EfficaceMente svanisce da quasi tutte le SERP di Google e le visite dai motori di ricerca si azzerano. Il dramma.

Il dramma

La Causa

Prima un breve flashback:

Sfruttando avanzatissime tecniche di memorizzazione ;-), ricollego la pausa caffè del Googlebot ad un down del servizio di hosting del mio blog. Approfondendo la questione ho la certezza che ci sia un legame tra l’azzeramento delle visite da Google e l’ultimo crash del server.

Preso dal panico, contatto qualsiasi persona che abbia una connessione ad internet da più di 10 anni, finché finalmente Davide, che sta gentilmente ospitando questo post, mi consiglia di rivolgermi ai ragazzi di Getseen. Nel giro di qualche giorno, grazie ad un’analisi dettagliata e scrupolosa, viene svelato l’arcano: il mio server non restituisce correttamente gli http headers.

E perché questo dovrebbe essere un problema?

Lo spider di google prima di visitare qualsiasi pagina del tuo sito/blog cerca un file: il file robots.txt. Questo piccolissimo file.txt, presente nella root del tuo dominio, serve per filtrare gli spider dei diversi motori di ricerca e per dare indicazioni su quali pagine possono essere visualizzate dai bot e quali invece non devono essere considerate.

In realtà questo file non deve essere indispensabilmente presente. La cosa importante è che il Googlebot cercandolo abbia queste due risposte dal server:

  • status 200. Ok il file è presente, terrò in considerazione il suo contenuto.
  • status 404. Ok il file non è presente, faccio il crawl anche del tuo libretto universitario.

Ma se il tuo server non restituisce correttamente gli http headers… beh hai un problema. Infatti se il Googlebot non riesce a leggere il tuo file robots.txt e non è sicuro che non esista, taglia corto e smette di fare il crawl delle tue pagine. Questo non ha effetti immediati, ma lentamente il tuo sito/blog perde posizioni nelle SERP, finché non avrai neanche una pagina indicizzata da Big G.

Insomma, Il robot(s) può cancellarti da Google.

Puoi accorgertene facilmente guardando gli errori nel pannello degli Strumenti di Google per Webmaster, se hai un: “robots.txt unreacheable”, sei entrato nel club! 😉

La Soluzione

A questo punto hai due alternative: scambi 57 e-mail con il tuo servizio di hosting (il numero di e-mail è reale) senza che siano in grado di risolverti il problema, oppure… cambi servizio di hosting. Dopo il cambio di hosting, il Blog EfficaceMente è tornato lentamente alla normalità, recuperando posizioni nelle SERP e traffico da Google.

Morale della favola: forse non avrai bisogno di una Ferrari per il tuo hosting, ma non scegliere un triciclo per risparmiare 1$ al mese. In un precedente Davide ha fatto una bella lista dei migliori hosting per blog.

Ti è mai capitato un problema simile?

Autore: Andrea Giuliodori (di Efficacemente.com) per il TagliaBlog.

Condividi su facebook
Facebook
Condividi su google
Google+
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su pinterest
Pinterest

27 Comments

  • A me è capitato di osservarlo più volte. Non è un fenomeno diffusissimo ma è sufficientemente presente da imporre sempre questo tipo di check nelle analisi SEO.

    Tra l’altro, essendo strettamente collegato all’oservanza dei protocolli sul Web, l’avevo messo anche come primo punto di un mio articolo su hosting e SEO scritto qualche eone fa.

    Una nota aggiuntiva a quello che hai (ben) scritto e che magari può essere utile a qualcuno: spesso è il CMS a produrre le intestazioni HTTP delle risorse (URL) da esso gestite. Solitamente i CMS non gestiscono il file robots.txt ma i problemi di intestazioni HTTP errate creano sfaceli anche sulle altre risorse/file dei siti.

    Quindi dopo aver individuato il fenomeno bisogna anche trovare il reale “colpevole”. 😉

  • A me è capitato una volta che l’amministratore del Server, in seguito ad un attacco spam, abbia bloccato l’accesso ad una certa lista di IP… tra cui anche quello del Googlebot!

    Adesso ho un problema con un altro sito: controllato e ricontrollato il codice, fatto e rifatto la sitemap, chiesto e richiesto la rimozione dei vecchi url… ma l’indicizzazione del sito si ferma dopo 5 pagine!

    Suggerimenti? 🙂

  • Grazie Enrico. Come avrai capito non sono un esperto del settore. Ma questo “piccolo” problema, mi ha fatto andare in verticale sull’argomento.

    Come hai giustamente detto, trovare il colpevole non è sempre facile, ne sono dimostrazione le 57 email scambiate con il servizio di supporto dell’hosting.

    Grazie per il commento.

  • Sottolineo quello che detto enrico, per essere piu’ precisi talvolta la configurazione dell’htaccess di Apache può essere un ostacolo a certe situazioni. Per esempio mi è capitato un paio di volte di non riuscire a verificare un dominio sulla webmaster console di google, perchè l’htaccess “spostava via” la richiesta del processo di google, in quanto il file caricato non era parte dei contenuti del cms.

    Ci sono una serie di plugins per firefox (per esempio LIVE HTTPHEADERS) o di siti che analizzano il modo in cui vengono processate le richieste 🙂 In particolare con il plugin di firefox si vedono cose straaaane sui siti 😀

  • Ahahahahha!!
    Anche tu nel tunnel di brunoEditore?!?!

    Ottimo blog, comunque, molto migliore del mio!!! 😉

  • Non mi è mai capitato, ti faccio i complimenti per la chiarezza del post e il modo semplice come è stato descritto un problema molto tecnico (non è sempre facile trovare in giro post di questo tipo).

  • @SilentMohai

    Mettiamola così: il blog è giovane, sono in fase di sperimentazione! Ma il fatto che vendano di più gli e-book in inglese… la dice lunga! Ahahaha.

    Grazie per il commento SilentMohai.

    Andrea.

  • Grazie Gianluca,
    quando Davide mi ha suggerito di scrivere un post sul problema dovevo decidere se essere tecnico o seguire il mio stile (senza scrivere baggianate).

    Avevo un po’ di timore a presentare un post di questo tipo in un blog come quello di Davide. Mi fa molto piacere che sia stato chiaro!

    Andrea.

  • @garethjax

    l’htaccess è stato uno dei primi file che ho verificato. Nel mio caso era pulito. Ma il fatto che quelli dell’hosting l’abbiano modificato di loro sponte non mi ha fatto molto piacere…

  • Quanto mi fa ridere l’immagine legato in questo modo all’argomento! Accostamento geniale…

  • Diciamo che l’uscita di Terminator Salvation cadeva a fagiuolo! 😉

    Grazie del commento.
    Andrea.

  • A me capita questo: se ricerco su google il nome del mio blog lo trovo. Ma se cerco per filo e per segno gli articoli che ho scritto non trovo nulla….

    Non vorrei essere entrato in quel cerchio…..dopo solo due mesi di attività del blog…….

    Complimenti comunque per il blog e per gli articoli sempre di ottima qualità e soprattutto molto interessanti….

  • Altra riprova di quanto quel piccolo file .txt possa essere “bastardo”.
    Io ti consiglio di togliere l’indicazione della sitemap nel file robots.txt. Non è necessaria.

    Per validare il vostro file robots.txt potete utilizzare questo link

    http://tool.motoricerca.info/robots-checker.phtml

    Andrea.

  • Grazie mille del suggerimento.

    Ho anche scoperto (grazie sempre a questo meraviglioso articolo) che non avevo ancora inviato nessuna sitemap.xml a google.

    Ora ho provato a farlo…vediamo se funge….

    Grazie ancora e complimenti.

  • Ho avuto un problema molto simile! Uso wordpress 2.7.1 e il giorno 12 Aprile il mio blog è stato hackerato! Da quel giorno gli http headers restituivano stato 301 (redirect permanente)! Contatto l’hosting (che pago circa 200€ al mese) e scambio una trentina di mail.. errore non risolto! Cerco qualcosa su google e mi capita di trovare una pagina che parla di WordPress 2.7.1 e delle sue vulnerabilità. Scopro che qualcuno mi ha inserito un redirect 301 al sito bablo.me.uk!

    I blog che parlano di questo sito però scrivono tutti che l’hack si trova o nel .httaccess o nel wp-blog-header.php! Cerco l’errore ma niente.. poi 10 giorni fa apro per l’ennesima volta il file Wp-Config.php e vedo che in basso c’è la barra scorrevole che si può spostare a destra.. Incuriosito la sposto totalmente a destra a cosa ci trovo dopo centinaia di righe bianche? Una scritta che inizia per “Evil” e contiene strane parole…

    Cosa faccio? La elimino, creo nuova sitemap per wordpress e chiedo che il mio sito venga riconsiderato. Oggi, a distanza di 7 giorni da quel momento, il mio blog ha riacquisito il pagerank 4 (l’hack lo ha portato a 0) e sta iniziando a ri-posizionarsi nelle serp (avevo perso più di 20 mila unici al giorno)! Controllate sempre ogni file quando siete penalizzati su google 🙂

  • Il pensiero mi ha sfiorato… e non ho avuto la certezza di essere stato hackerato finché non sono passato al nuovo hosting. “Fortunatamente” il problema era legato al server precedente.

    Per sicurezza, proprio ieri sono passato a WordPress 2.8.

    Andrea

  • Non so se la notizia può risultare interessante per qualcuno, ma noi abbiamo scoperto che Google, anche se è presente un file robot che gli dice di non spiderare alcune directory, un bel giretto se lo fa lo stesso. Cosa ci farà con questi dati? 😉

  • Interessante,
    non ne ero a conoscenza. Per quanto riguarda la mia esperienza, non riuscendo a raggiungere il file robots.txt, il google bot aveva smesso di spidare completamente. Lo si può vedere dai grafici del webmaster tool.

    Andrea

  • Andrea, hai maggiori informazioni sul fenomeno? Ad esempio il robots.txt che esisteva e le righe del log del web server che mostrano cosa esattamente ha chiesto Googlebot? 🙂

  • Ciao Enrico,
    purtroppo non so chiaramente cosa sia successo lato server (del mio vecchio hosting). Il tutto è iniziato dopo un crash dello stesso.

    L’unica verifica che siamo stati in grado di fare è stata quella degli http headers.

    Andrea

  • Scusate, non avevo notato l’omonimia e non ho specificato a quale Andrea mi stavo rivolgendo 😛

    Il mio precedente commento era indirizzato ad Andrea Pilotti. 🙂

  • Capita proprio a pennello questo interessante (come sempre) articolo

    – Ad Aprile di quest’anno attivo un nuovo sito,
    – il sito è già ricco di diversi contenuti,.. si tratta di 400 articoli e tutti ottimizzati
    – il sito riceve link da altri 2, e tra questi uno è in testa da almeno 1 anno e mezzo sulla parola chiave principale
    – il nuovo sito partito piano piano raggiunge in un mese il triplo di visite.. ma immediatamente dopo si riducono ad 1/3 e le stesse provengono solo dalle 2 risorse da cui riceve i link. Tra le parole chiavi che individuano il sito esiste solo Yahoo.. manca google
    – il periodo di sandbox (non so se esiste ancora) in cui il sito viene posto sotto attenzione è stato irrimediabilmente compromesso
    – ieri per caso ritorno su un forum linkato sia dalla nuova risorsa che su quella rilevante (da ciascuna pagina) e scopro 25 pagine complete di link diciamo particolari ad opera di un spammer che era riuscito ad accedere al forum e cambiare la mia password di admin
    – ho dovuto cancellare tutto e reinstallare il forum phpbb
    – putroppo è rimasto lì per 1 mese e io nel frattempo non ho fatto nulla

    Ora mi dimando cosa posso fare per avvisare google che non è stata colpa mia e vorrei essere riconsiderato ?

  • Se non erro, puoi inviare la richiesta di riconsiderazione proprio dalla pagina principale degli strumenti google per webmaster.

    Spero di esserti stato di aiuto.

    Andrea.

  • Grazie Andrea.. l’ho appena fatto.. speriamo la leggano 🙂

  • Qualche giorno fà, ad inizio mese con la precisione, joomla.it è stato cancellato dagli indici per un problema al robot.yxy durato circa 10 giorni. Un sito così rilevante… completamente cancellato.

    E’ bastato poco però per tornare alla normalità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Max Valle

Max Valle

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, 
aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Seguimi sui social

Iscriviti alla Newsletter

Main sponsor

Scroll to Top

Utilizziamo i cookie per personalizzare contenuti ed annunci, per fornire funzionalità dei social media e per analizzare il nostro traffico. Condividiamo inoltre informazioni sul modo in cui utilizza il nostro sito con i nostri partner che si occupano di analisi dei dati web, pubblicità e social media, i quali potrebbero combinarle con altre informazioni che ha fornito loro o che hanno raccolto dal suo utilizzo dei loro servizi. Acconsenta ai nostri cookie se continua ad utilizzare il nostro sito web. Per maggiori informazioni visualizza la Privacy & Cookie policy