Il salvataggio di Roma (ovvero la vera faccia della duplicazione dei contenuti su Google)

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram

Era l’aprile 2008 quando le armi costruite dagli spider di Google hanno invaso il dominio Roma del sito Bakeca.it.

Le copie cache delle pagine web erano state brutalmente inserite nel carcere, ed il sito aveva perso quasi tutte le posizioni e non solo per le keyword competitive.

Ai tempi gestivo l’aspetto SEO del sito Bakeca, e senza ombra di dubbio, ero nei guai:


In primo luogo ho eseguito una revisione generale del sito e di tutti gli elementi che un professionista della SEO deve prendere assolutamente in considerazione.

Poi sono stati eliminati i link provenienti da attività di scambio link e i link dei partner che potrebbero sarebbero potuti sembrare frutto di compravendita. Sono stati rimossi alcuni espedienti semantici presenti nelle pagine dell’elenco annunci che erano finalizzati alla generazione di sinonimi e collocazioni nei testi link (anchor text) delle sezioni.

Infine sono stati ottimizzati i Title e i contenuti delle pagine eliminando alcune frasi ripetute.

Risultati? Zero.

Passavano i mesi, e io non trovavo una soluzione al problema.

“Michal, se il problema è solo sul dominio Roma.bakeca.it e gli altri funzionano bene devi cercare qualcosa di diverso che riguarda quel dominio”, mi ripetevano i tecnici.

Wordlift

Io, però, non ero d’accordo.

Un ragionamento specifico nel caso delle punizioni di Google funziona molto raramente. Bisogna sempre guardare il sito nel suo insieme, altrimenti ci sono pochi dati e troppe variabili impreviste che escludiamo dall’analisi.


Essendo in un piena trance scientifico-ipnotica ho riletto le basi dell’algoritmo PhraseRank.

Tra le tante informazioni inutili, probabilmente le frasi avrebbero potuto rappresentare la chiave del problema. Le frasi riguardavano il modus operandi di Google nel caso delle pagine duplicate:

• nel caso in cui il motore di ricerca ritiene le pagine simili o duplicate, può decidere di indicizzarle e inserirle nei risultati di ricerca a rotazione, per verificare quale di queste produce la maggior user experience

• nel caso in cui il motore nota una grossa quantità di duplicati può decidere a priori di non indicizzarli

• in più è possibile che google classifichi un dominio o uno schema url come “duplicate pattern”, decretando così i documenti appartenenti a questo dominio inutili e duplicati

Ecco, questo mi ha schiarito le idee:


In più ai tempi Google introduceva la possibilità di verificare le duplicazioni dei tag title e meta description:


Autore: Michal Gawel (direttore tecnico di Seolab e relatore al corso The Google Show che si terrà a Milano a fine giugno), per il TagliaBlog.

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, in modo serio e produttivo, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.
×
Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, in modo serio e produttivo, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

11 Comments

  • giacché ho letto questo articolo, mi sono ricordato di togliere un link a bakeca.it con cui avevamo fatto lo scambio e di cui non vedo tracce del mio link, ciao

    Reply
  • 1. checco: 🙂 infatti questo post è proprio per far capire cosa realmente si nasconde dietro la parola duplicazione.

    Duplicazione intesa come il fenomeno specifico, ovvero “ho pubblicato 1000 articoli sotto 2 url diversi ciascuno, sono punito?” non esiste.

    Duplicazione intesa come il fenomeno olisitico invece “esiste”, ovvero può causare dei problemi a livello di ragruppamento di risultato. Se generi centinaia di miliia di pagina con sorgente html simile + semantica simili si che cominci a rischiare che google sbaglia il significato semantico della tua pagina. In caso bakeca: roma smetteva di essere roma.

    Il vero problema non è quindi “la duplicazione” ma il ragruppamento dei tuoi risultati su google. La domanda non è “sto duplicando o no”, bensì “quale insieme di documenti do a Google”.

    2. Zanna 86:

    Hai ragione, la soluzione immediata poi è stata evoluta. Se vuoi fare dei test di consiglio di utilizzare il user agent switcher + guardare il grado della testualita dei elenchi di annunci che varia:) non dico niente di più:)

    2. dag: no, mai sentito:) a parte che in 2008 canonicalizzazione era ben più difficile (no rel canonical, mi spiace), però a parte questo dovevamo indicizzare gli annunci, dall’altra fornire a google un insieme di documenti più chiari semanticamente. Bisognava trovare il giusto equilibrio tra queste esigenze, e le risorse tecniche a disposizione. Ti assicuro che la soluzione citata dato le risorse a disposizione era più che buona:)

    3. Gabriel: interessante ciò che dici sui canonical, lo provo anchio, vediamo se gira.

    Reply
  • Infatti il “simile” di google è riferito al contenuto, non alla forma.

    L’esempio classico è quello della versione alternativa della pagina per la stampa. Layout diversissimo, ma contenuti identici.

    Reply
  • Ciao Luca,

    La tua soluzione con il follow, noindex sembra più sicura, però ho controllato e si potrebbe usare anche il canonical per pagine simili o uguali, cito dal blog google wembater central.
    “if your site has identical or vastly similar content that’s accessible through multiple URLs”

    Secondo me è nella definizione del “simile” che alcuni si sbagliano. Io considero simili pagini che hanno codice html di base simile (solitamente script come joomla) che si ripete in quasi tutte le pagine, e le pagini per essere considerate simili devono avere ad esempio il title identico, o quasi tutto uguale.

    Reply
  • Attenzione perché, se vogliamo essere precisi, google specifica che il canonical andrebbe usato tra contenuti UGUALI e il caso illustrato in questa pagina non riguarda pagine uguali… quindi il follow,noindex è la soluzione perfetta. non il canonical

    Reply
  • Ma infatti non si tratta di una penalizzazione, almeno non in senso stretto!… gli eran finite le pagine nell’indice supplementare. Se nell’indice pubblico ti crollano le pagine, anche il traffico ne risentirà, specialmente quello di coda lunga. Bisogna fare molta attenzione al contenuto duplicato, specie nei siti di grosse dimensioni (nell’ordine di grandezza delle milioni di pagine indicizzate).

    Reply
  • Sempre divertenti i tuoi video!!Bravo!

    Comunque per sfizio mi sono andato a vedere il codice di bakeca.it però non ho mica trovato questo dofollow but noindex, anzi ho trovato su tutte le pagine il follow all…….non era quello il problema?!dal 2008 ne è passato di tempo..!

    Reply
  • Ma questo non è lo stesso tizio che diceva che la penalizzazione per contenuti duplicati non esiste? LOL

    Reply

Rispondi

Max Valle
Max Valle

Da oltre 20 anni, fornisco consulenze per aziendee professionisti, che vogliono sviluppare il loro business, aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Iscriviti alla Newsletter
Main sponsor
logo kleecks

Sponsor

Il salvataggio di Roma (ovvero la vera faccia della duplicazione dei contenuti su Google)
Scroll to Top

Vuoi capire perchè il tuo sito non traffica?

REPORT SEO a soli 47€

anzichè 197€+iva
Giorni
Ore
Minuti
Secondi