11mag
Postato da Tagliaerbe
Tag: contenuti-duplicati, michal-gawel, seo
Era l’aprile 2008 quando le armi costruite dagli spider di Google hanno invaso il dominio Roma del sito Bakeca.it.
Le copie cache delle pagine web erano state brutalmente inserite nel carcere, ed il sito aveva perso quasi tutte le posizioni e non solo per le keyword competitive.
Ai tempi gestivo l’aspetto SEO del sito Bakeca, e senza ombra di dubbio, ero nei guai:
In primo luogo ho eseguito una revisione generale del sito e di tutti gli elementi che un professionista della SEO deve prendere assolutamente in considerazione.
Poi sono stati eliminati i link provenienti da attività di scambio link e i link dei partner che potrebbero sarebbero potuti sembrare frutto di compravendita. Sono stati rimossi alcuni espedienti semantici presenti nelle pagine dell’elenco annunci che erano finalizzati alla generazione di sinonimi e collocazioni nei testi link (anchor text) delle sezioni.
Infine sono stati ottimizzati i Title e i contenuti delle pagine eliminando alcune frasi ripetute.
Risultati? Zero.
Passavano i mesi, e io non trovavo una soluzione al problema.
“Michal, se il problema è solo sul dominio Roma.bakeca.it e gli altri funzionano bene devi cercare qualcosa di diverso che riguarda quel dominio”, mi ripetevano i tecnici.
Io, però, non ero d’accordo.
Un ragionamento specifico nel caso delle punizioni di Google funziona molto raramente. Bisogna sempre guardare il sito nel suo insieme, altrimenti ci sono pochi dati e troppe variabili impreviste che escludiamo dall’analisi.
Essendo in un piena trance scientifico-ipnotica ho riletto le basi dell’algoritmo PhraseRank.
Tra le tante informazioni inutili, probabilmente le frasi avrebbero potuto rappresentare la chiave del problema. Le frasi riguardavano il modus operandi di Google nel caso delle pagine duplicate:
• nel caso in cui il motore di ricerca ritiene le pagine simili o duplicate, può decidere di indicizzarle e inserirle nei risultati di ricerca a rotazione, per verificare quale di queste produce la maggior user experience
• nel caso in cui il motore nota una grossa quantità di duplicati può decidere a priori di non indicizzarli
• in più è possibile che google classifichi un dominio o uno schema url come “duplicate pattern”, decretando così i documenti appartenenti a questo dominio inutili e duplicati
Ecco, questo mi ha schiarito le idee:
In più ai tempi Google introduceva la possibilità di verificare le duplicazioni dei tag title e meta description:
Autore: Michal Gawel (direttore tecnico di Seolab e relatore al corso The Google Show che si terrà a Milano a fine giugno), per il TagliaBlog.
11 Risposte
checco
maggio 11th, 2010 at 07:44
1Ma questo non è lo stesso tizio che diceva che la penalizzazione per contenuti duplicati non esiste? LOL
zanna86
maggio 11th, 2010 at 08:24
2Sempre divertenti i tuoi video!!Bravo!
Comunque per sfizio mi sono andato a vedere il codice di bakeca.it però non ho mica trovato questo dofollow but noindex, anzi ho trovato su tutte le pagine il follow all…….non era quello il problema?!dal 2008 ne è passato di tempo..!
Martino
maggio 11th, 2010 at 09:42
3Ma infatti non si tratta di una penalizzazione, almeno non in senso stretto!… gli eran finite le pagine nell’indice supplementare. Se nell’indice pubblico ti crollano le pagine, anche il traffico ne risentirà, specialmente quello di coda lunga. Bisogna fare molta attenzione al contenuto duplicato, specie nei siti di grosse dimensioni (nell’ordine di grandezza delle milioni di pagine indicizzate).
dag
maggio 11th, 2010 at 17:39
4Mai sentito parlare di “canonicalizzazione”?
Egidio imbrogno
maggio 11th, 2010 at 21:22
5Bravo… Dag… canonicalizzazione quella è la soluzione.
Luca
maggio 12th, 2010 at 00:11
6Attenzione perché, se vogliamo essere precisi, google specifica che il canonical andrebbe usato tra contenuti UGUALI e il caso illustrato in questa pagina non riguarda pagine uguali… quindi il follow,noindex è la soluzione perfetta. non il canonical
Gabriel
maggio 12th, 2010 at 14:38
7Ciao Luca,
La tua soluzione con il follow, noindex sembra più sicura, però ho controllato e si potrebbe usare anche il canonical per pagine simili o uguali, cito dal blog google wembater central.
“if your site has identical or vastly similar content that’s accessible through multiple URLs”
Secondo me è nella definizione del “simile” che alcuni si sbagliano. Io considero simili pagini che hanno codice html di base simile (solitamente script come joomla) che si ripete in quasi tutte le pagine, e le pagini per essere considerate simili devono avere ad esempio il title identico, o quasi tutto uguale.
Martino
maggio 12th, 2010 at 14:58
8Infatti il “simile” di google è riferito al contenuto, non alla forma.
L’esempio classico è quello della versione alternativa della pagina per la stampa. Layout diversissimo, ma contenuti identici.
Mareforzanove
maggio 12th, 2010 at 17:16
9Sei grande Michael !!!!
Michal
maggio 13th, 2010 at 15:19
101. checco:
infatti questo post è proprio per far capire cosa realmente si nasconde dietro la parola duplicazione.
Duplicazione intesa come il fenomeno specifico, ovvero “ho pubblicato 1000 articoli sotto 2 url diversi ciascuno, sono punito?” non esiste.
Duplicazione intesa come il fenomeno olisitico invece “esiste”, ovvero può causare dei problemi a livello di ragruppamento di risultato. Se generi centinaia di miliia di pagina con sorgente html simile + semantica simili si che cominci a rischiare che google sbaglia il significato semantico della tua pagina. In caso bakeca: roma smetteva di essere roma.
Il vero problema non è quindi “la duplicazione” ma il ragruppamento dei tuoi risultati su google. La domanda non è “sto duplicando o no”, bensì “quale insieme di documenti do a Google”.
2. Zanna 86:
Hai ragione, la soluzione immediata poi è stata evoluta. Se vuoi fare dei test di consiglio di utilizzare il user agent switcher + guardare il grado della testualita dei elenchi di annunci che varia:) non dico niente di più:)
2. dag: no, mai sentito:) a parte che in 2008 canonicalizzazione era ben più difficile (no rel canonical, mi spiace), però a parte questo dovevamo indicizzare gli annunci, dall’altra fornire a google un insieme di documenti più chiari semanticamente. Bisognava trovare il giusto equilibrio tra queste esigenze, e le risorse tecniche a disposizione. Ti assicuro che la soluzione citata dato le risorse a disposizione era più che buona:)
3. Gabriel: interessante ciò che dici sui canonical, lo provo anchio, vediamo se gira.
Marco
maggio 17th, 2010 at 15:21
11giacché ho letto questo articolo, mi sono ricordato di togliere un link a bakeca.it con cui avevamo fatto lo scambio e di cui non vedo tracce del mio link, ciao
RSS dei commenti per questo post · TrackBack URI
Lascia un commento
post recenti
commenti recenti
connettiti col tagliaerbe
L'autore di questo blog e' Davide "Tagliaerbe" Pozzi. Dal 1995 si occupa a tempo pieno di Internet, e i suoi interessi attuali spaziano nei campi del:
Il TagliaBlog (P.I. 02914290123) è realizzato su WordPress - Il tema di base è BloggingPro, modificato da Mirko D'Isidoro di Blographik.it