10 giu
Postato da Tagliaerbe
Tag: hosting, penalizzazioni, seo

Da ormai 8 mesi sto curando il mio piccolo Blog di Crescita Personale: settimana dopo settimana ho visto le visite crescere, gli iscritti al feed RSS aumentare ed il traffico di Google impennarsi. Fino a maggio, quando sono scomparso da Google.
Il Problema
Controllando distrattamente le crawl stats nel mio pannello degli Strumenti di Google per Webmaster, noto che il Googlebot ha smesso di visitare il mio blog. “Poco male, sarà andato a prendersi un caffè” penso tra me e me.

I giorni passano, la pausa caffè del Googlebot non accenna a terminare, ma in compenso le visite al blog continuano ad aumentare, e negli stessi giorni raggiungo il picco di visitatori da Google, grazie alla keyword “cambiare vita”. “Mah, Big G starà facendo qualche aggiornamento al servizio per webmaster” continuo a pensare da neofita.
Neanche un mese e si scatena l’inferno™ (marchio registrato dal Gladiatore): il Blog EfficaceMente svanisce da quasi tutte le SERP di Google e le visite dai motori di ricerca si azzerano. Il dramma.

La Causa
Prima un breve flashback:
Sfruttando avanzatissime tecniche di memorizzazione
, ricollego la pausa caffè del Googlebot ad un down del servizio di hosting del mio blog. Approfondendo la questione ho la certezza che ci sia un legame tra l’azzeramento delle visite da Google e l’ultimo crash del server.
Preso dal panico, contatto qualsiasi persona che abbia una connessione ad internet da più di 10 anni, finché finalmente Davide, che sta gentilmente ospitando questo post, mi consiglia di rivolgermi ai ragazzi di Getseen. Nel giro di qualche giorno, grazie ad un’analisi dettagliata e scrupolosa, viene svelato l’arcano: il mio server non restituisce correttamente gli http headers.
E perché questo dovrebbe essere un problema?
Lo spider di google prima di visitare qualsiasi pagina del tuo sito/blog cerca un file: il file robots.txt. Questo piccolissimo file.txt, presente nella root del tuo dominio, serve per filtrare gli spider dei diversi motori di ricerca e per dare indicazioni su quali pagine possono essere visualizzate dai bot e quali invece non devono essere considerate.
In realtà questo file non deve essere indispensabilmente presente. La cosa importante è che il Googlebot cercandolo abbia queste due risposte dal server:
Ma se il tuo server non restituisce correttamente gli http headers… beh hai un problema. Infatti se il Googlebot non riesce a leggere il tuo file robots.txt e non è sicuro che non esista, taglia corto e smette di fare il crawl delle tue pagine. Questo non ha effetti immediati, ma lentamente il tuo sito/blog perde posizioni nelle SERP, finché non avrai neanche una pagina indicizzata da Big G.
Insomma, Il robot(s) può cancellarti da Google.
Puoi accorgertene facilmente guardando gli errori nel pannello degli Strumenti di Google per Webmaster, se hai un: “robots.txt unreacheable”, sei entrato nel club!
La Soluzione
A questo punto hai due alternative: scambi 57 e-mail con il tuo servizio di hosting (il numero di e-mail è reale) senza che siano in grado di risolverti il problema, oppure… cambi servizio di hosting. Dopo il cambio di hosting, il Blog EfficaceMente è tornato lentamente alla normalità, recuperando posizioni nelle SERP e traffico da Google.
Morale della favola: forse non avrai bisogno di una Ferrari per il tuo hosting, ma non scegliere un triciclo per risparmiare 1$ al mese. In un precedente Davide ha fatto una bella lista dei migliori hosting per blog.
Ti è mai capitato un problema simile?
Autore: Andrea Giuliodori (di Efficacemente.com) per il TagliaBlog.
29 Risposte
Enrico Altavilla
giugno 10th, 2009 at 00:48
1A me è capitato di osservarlo più volte. Non è un fenomeno diffusissimo ma è sufficientemente presente da imporre sempre questo tipo di check nelle analisi SEO.
Tra l’altro, essendo strettamente collegato all’oservanza dei protocolli sul Web, l’avevo messo anche come primo punto di un mio articolo su hosting e SEO scritto qualche eone fa.
Una nota aggiuntiva a quello che hai (ben) scritto e che magari può essere utile a qualcuno: spesso è il CMS a produrre le intestazioni HTTP delle risorse (URL) da esso gestite. Solitamente i CMS non gestiscono il file robots.txt ma i problemi di intestazioni HTTP errate creano sfaceli anche sulle altre risorse/file dei siti.
Quindi dopo aver individuato il fenomeno bisogna anche trovare il reale “colpevole”.
Jonathan
giugno 10th, 2009 at 01:25
2A me è capitato una volta che l’amministratore del Server, in seguito ad un attacco spam, abbia bloccato l’accesso ad una certa lista di IP… tra cui anche quello del Googlebot!
Adesso ho un problema con un altro sito: controllato e ricontrollato il codice, fatto e rifatto la sitemap, chiesto e richiesto la rimozione dei vecchi url… ma l’indicizzazione del sito si ferma dopo 5 pagine!
Suggerimenti?
Andrea @ EfficaceMente
giugno 10th, 2009 at 07:43
3Grazie Enrico. Come avrai capito non sono un esperto del settore. Ma questo “piccolo” problema, mi ha fatto andare in verticale sull’argomento.
Come hai giustamente detto, trovare il colpevole non è sempre facile, ne sono dimostrazione le 57 email scambiate con il servizio di supporto dell’hosting.
Grazie per il commento.
Andrea @ EfficaceMente
giugno 10th, 2009 at 07:46
4Ciao Jonathan,
nel cercare di capire il mio problema ho scoperto che il noto plugin XML sitemap ha qualche problemuccio con wp 2.7.1. Nel mio caso, non era il vero problema, ma tentar non nuoce. Prova a sostituirlo con
http://wordpress.org/extend/plugins/karailievs-sitemap/
Andrea.
garethjax
giugno 10th, 2009 at 08:29
5Sottolineo quello che detto enrico, per essere piu’ precisi talvolta la configurazione dell’htaccess di Apache può essere un ostacolo a certe situazioni. Per esempio mi è capitato un paio di volte di non riuscire a verificare un dominio sulla webmaster console di google, perchè l’htaccess “spostava via” la richiesta del processo di google, in quanto il file caricato non era parte dei contenuti del cms.
Ci sono una serie di plugins per firefox (per esempio LIVE HTTPHEADERS) o di siti che analizzano il modo in cui vengono processate le richieste
In particolare con il plugin di firefox si vedono cose straaaane sui siti
SilentMohai
giugno 10th, 2009 at 09:04
6Ahahahahha!!
Anche tu nel tunnel di brunoEditore?!?!
Ottimo blog, comunque, molto migliore del mio!!!
Gianluca M
giugno 10th, 2009 at 09:21
7Non mi è mai capitato, ti faccio i complimenti per la chiarezza del post e il modo semplice come è stato descritto un problema molto tecnico (non è sempre facile trovare in giro post di questo tipo).
Andrea @ EfficaceMente
giugno 10th, 2009 at 09:24
8@SilentMohai
Mettiamola così: il blog è giovane, sono in fase di sperimentazione! Ma il fatto che vendano di più gli e-book in inglese… la dice lunga! Ahahaha.
Grazie per il commento SilentMohai.
Andrea.
Andrea @ EfficaceMente
giugno 10th, 2009 at 09:26
9Grazie Gianluca,
quando Davide mi ha suggerito di scrivere un post sul problema dovevo decidere se essere tecnico o seguire il mio stile (senza scrivere baggianate).
Avevo un po’ di timore a presentare un post di questo tipo in un blog come quello di Davide. Mi fa molto piacere che sia stato chiaro!
Andrea.
Andrea @ EfficaceMente
giugno 10th, 2009 at 09:28
10@garethjax
l’htaccess è stato uno dei primi file che ho verificato. Nel mio caso era pulito. Ma il fatto che quelli dell’hosting l’abbiano modificato di loro sponte non mi ha fatto molto piacere…
Nico Guzzi
giugno 10th, 2009 at 10:28
11Quanto mi fa ridere l’immagine legato in questo modo all’argomento! Accostamento geniale…
Andrea @ EfficaceMente
giugno 10th, 2009 at 10:31
12Diciamo che l’uscita di Terminator Salvation cadeva a fagiuolo!
Grazie del commento.
Andrea.
http://bookmark.giorgiotave.it
giugno 10th, 2009 at 14:14
13Perché il robot.txt è importante…
Caso di studio per l’importanza del file robots.txt…
Magino85
giugno 10th, 2009 at 15:37
14A me capita questo: se ricerco su google il nome del mio blog lo trovo. Ma se cerco per filo e per segno gli articoli che ho scritto non trovo nulla….
Non vorrei essere entrato in quel cerchio…..dopo solo due mesi di attività del blog…….
Complimenti comunque per il blog e per gli articoli sempre di ottima qualità e soprattutto molto interessanti….
Mik
giugno 10th, 2009 at 16:17
15Magino nel file robots hai indicato una sitemap inesistente:
http://www.cicaleccio.it/sitemap.xml.gz
Andrea @ EfficaceMente
giugno 10th, 2009 at 16:31
16Altra riprova di quanto quel piccolo file .txt possa essere “bastardo”.
Io ti consiglio di togliere l’indicazione della sitemap nel file robots.txt. Non è necessaria.
Per validare il vostro file robots.txt potete utilizzare questo link
http://tool.motoricerca.info/robots-checker.phtml
Andrea.
Magino85
giugno 10th, 2009 at 17:50
17Grazie mille del suggerimento.
Ho anche scoperto (grazie sempre a questo meraviglioso articolo) che non avevo ancora inviato nessuna sitemap.xml a google.
Ora ho provato a farlo…vediamo se funge….
Grazie ancora e complimenti.
Anel
giugno 12th, 2009 at 02:28
18Ho avuto un problema molto simile! Uso wordpress 2.7.1 e il giorno 12 Aprile il mio blog è stato hackerato! Da quel giorno gli http headers restituivano stato 301 (redirect permanente)! Contatto l’hosting (che pago circa 200€ al mese) e scambio una trentina di mail.. errore non risolto! Cerco qualcosa su google e mi capita di trovare una pagina che parla di WordPress 2.7.1 e delle sue vulnerabilità. Scopro che qualcuno mi ha inserito un redirect 301 al sito bablo.me.uk!
I blog che parlano di questo sito però scrivono tutti che l’hack si trova o nel .httaccess o nel wp-blog-header.php! Cerco l’errore ma niente.. poi 10 giorni fa apro per l’ennesima volta il file Wp-Config.php e vedo che in basso c’è la barra scorrevole che si può spostare a destra.. Incuriosito la sposto totalmente a destra a cosa ci trovo dopo centinaia di righe bianche? Una scritta che inizia per “Evil” e contiene strane parole…
Cosa faccio? La elimino, creo nuova sitemap per wordpress e chiedo che il mio sito venga riconsiderato. Oggi, a distanza di 7 giorni da quel momento, il mio blog ha riacquisito il pagerank 4 (l’hack lo ha portato a 0) e sta iniziando a ri-posizionarsi nelle serp (avevo perso più di 20 mila unici al giorno)! Controllate sempre ogni file quando siete penalizzati su google
Andrea @ EfficaceMente
giugno 12th, 2009 at 11:09
19Il pensiero mi ha sfiorato… e non ho avuto la certezza di essere stato hackerato finché non sono passato al nuovo hosting. “Fortunatamente” il problema era legato al server precedente.
Per sicurezza, proprio ieri sono passato a WordPress 2.8.
Andrea
Andrea Pilotti
giugno 15th, 2009 at 21:31
20Non so se la notizia può risultare interessante per qualcuno, ma noi abbiamo scoperto che Google, anche se è presente un file robot che gli dice di non spiderare alcune directory, un bel giretto se lo fa lo stesso. Cosa ci farà con questi dati?
Andrea @ EfficaceMente
giugno 15th, 2009 at 21:44
21Interessante,
non ne ero a conoscenza. Per quanto riguarda la mia esperienza, non riuscendo a raggiungere il file robots.txt, il google bot aveva smesso di spidare completamente. Lo si può vedere dai grafici del webmaster tool.
Andrea
Enrico Altavilla
giugno 15th, 2009 at 22:01
22Andrea, hai maggiori informazioni sul fenomeno? Ad esempio il robots.txt che esisteva e le righe del log del web server che mostrano cosa esattamente ha chiesto Googlebot?
Andrea @ EfficaceMente
giugno 15th, 2009 at 22:15
23Ciao Enrico,
purtroppo non so chiaramente cosa sia successo lato server (del mio vecchio hosting). Il tutto è iniziato dopo un crash dello stesso.
L’unica verifica che siamo stati in grado di fare è stata quella degli http headers.
Andrea
Enrico Altavilla
giugno 15th, 2009 at 22:18
24Scusate, non avevo notato l’omonimia e non ho specificato a quale Andrea mi stavo rivolgendo
Il mio precedente commento era indirizzato ad Andrea Pilotti.
Il 95% dei blog è vicino alla morte : 4 possibili motivi alla base di questo stato | Pecciola
giugno 18th, 2009 at 08:20
25[...] tutto cercate di capire ed indagare sulle cause e vedrete che un motivo c’è sempre. Vi porto come esempio questo post della scorsa settimana su TagliaBlog per farvi capire come tutto può cambiare in un momento e poi [...]
Francesco
giugno 18th, 2009 at 21:55
26Capita proprio a pennello questo interessante (come sempre) articolo
- Ad Aprile di quest’anno attivo un nuovo sito,
- il sito è già ricco di diversi contenuti,.. si tratta di 400 articoli e tutti ottimizzati
- il sito riceve link da altri 2, e tra questi uno è in testa da almeno 1 anno e mezzo sulla parola chiave principale
- il nuovo sito partito piano piano raggiunge in un mese il triplo di visite.. ma immediatamente dopo si riducono ad 1/3 e le stesse provengono solo dalle 2 risorse da cui riceve i link. Tra le parole chiavi che individuano il sito esiste solo Yahoo.. manca google
- il periodo di sandbox (non so se esiste ancora) in cui il sito viene posto sotto attenzione è stato irrimediabilmente compromesso
- ieri per caso ritorno su un forum linkato sia dalla nuova risorsa che su quella rilevante (da ciascuna pagina) e scopro 25 pagine complete di link diciamo particolari ad opera di un spammer che era riuscito ad accedere al forum e cambiare la mia password di admin
- ho dovuto cancellare tutto e reinstallare il forum phpbb
- putroppo è rimasto lì per 1 mese e io nel frattempo non ho fatto nulla
Ora mi dimando cosa posso fare per avvisare google che non è stata colpa mia e vorrei essere riconsiderato ?
Andrea @ EfficaceMente
giugno 18th, 2009 at 22:04
27Se non erro, puoi inviare la richiesta di riconsiderazione proprio dalla pagina principale degli strumenti google per webmaster.
Spero di esserti stato di aiuto.
Andrea.
Francesco
giugno 18th, 2009 at 22:41
28Grazie Andrea.. l’ho appena fatto.. speriamo la leggano
Trapani
giugno 24th, 2009 at 17:18
29Qualche giorno fà, ad inizio mese con la precisione, joomla.it è stato cancellato dagli indici per un problema al robot.yxy durato circa 10 giorni. Un sito così rilevante… completamente cancellato.
E’ bastato poco però per tornare alla normalità.
RSS dei commenti per questo post · TrackBack URI
Lascia un commento
post recenti
commenti recenti
connettiti col tagliaerbe
Se vuoi seguire l'autore di questo blog, lo trovi su:
Il TagliaBlog (P.I. 02914290123) è realizzato su piattaforma WordPress - Il tema di base è BloggingPro, modificato da Mirko D'Isidoro di Blographik.it