Come riconoscere la paternità di un contenuto

Contenuto originale e contenuto copiato

La dichiarazione di guerra agli Scraper Site ha mostrato – anche se non ce ne era bisogno – che Google ha serie difficoltà a riconoscere la fonte originale di un contenuto.

Ad oggi si basa principalmente sull’autorevolezza/trust di un sito, che si crea in base ad un mix di anzianità, qualità/freschezza/numero dei contenuti, link in ingresso, fattori sociali e tanti altri piccoli segnali che Google legge e interpreta per stabilire qual è l’originale e quale la copia.

Questo modus operandi del motore di ricerca, spesso e volentieri, fa emergere dalle SERP siti che copiano/aggregano contenuti di terzi, siti che vengono però visti come più autorevoli della fonte originale e quindi vengono premiati a discapito di quest’ultima.

In altre parole, se la prima sorgente di un contenuto non è autorevole agli occhi del motore, viene penalizzata quasi come fosse uno dei tanti “copioni” presenti su Internet – se questi copioni hanno un trust maggiore della fonte.

A questo nonsense totale, che deprime che scrive e riempie il web di spazzatura ridondante, credo che Google debba mettere fine con un provvedimento un po’ più drastico della “segnalazione volontaria” degli scraper.

Proposta per un algoritmo che riconosca i contenuti originali

Premessa: non sono un analista, un programmatore o un ingegnere, non capisco una mazza di algoritmi e quanto scrivo è solo in base al mio (limitato) buon senso.

La mia proposta è molto semplice, probabilmente già pensata da molti altri, e richiede il supporto di questi elementi:

• un CMS (o meglio un plugin sviluppato da Google per integrarsi al CMS)
• Google Webmaster Tools
• il Googlebot 🙂

Partiamo dal CMS e dal plugin: personalmente, per un test iniziale, propenderei per WordPress, che a quanto pare è utilizzato dal 14,7% dei top million website del mondo e dal 22% dei nuovi domini attivati negli USA.

Il plugin dovrebbe semplicemente far comparire un quadratino da flaggare all’atto della schedulazione del post, qualcosa di questo tipo:

Plugin WordPress per contenuti originali

In pratica, al termine della scrittura dell’articolo, mentre decido il giorno e l’ora di pubblicazione, invio a Google l’articolo reclamandone la partenità.

Spuntando il quadratino sto dicendo a Google: “Ehi, questo articolo è mio, mettilo nella tua cache, e ricordati che è l’originale. Tutti gli altri che vedrai in giro sul web sono copie, e come tali andranno trattate ai fini del ranking.”

Ovviamente Google confronta il contenuto con le altre pagine presenti nel suo database, e se questo è effettivamente originale lo cacha (inviando conferma all’autore). Se il contenuto è copiato, parzialmente o integralmente, invia un alert al webmaster dicendogli: “Attenzione, il contenuto dell’articolo non è originale. Verrà indicizzato con priorità inferiore e posizionato almeno trenta risultati dopo il contenuto originale, oppure finirà nell’indice supplementare.”

Fra gli elementi necessari a far funzionare il tutto ho citato anche gli Strumenti per i Webmaster di Google, nonché il Googlebot.

Il primo sai benissimo come funziona: Google ha vari sistemi per verificare che tu sia il proprietario di un sito, e potrebbe utilizzare la stessa logica per accertare la paternità dei contenuti.

Per esempio, un codice univoco generato dagli Strumenti per i Webmaster di Google potrebbe essere inserito nel pannello di amministrazione del plugin, ed “impresso” sui singoli post come una sorta di filigrana: metà del codice potrebbe essere sempre uguale (ovvero quello relativo al sito), mentre l’altra metà potrebbe essere variabile (e quindi identificare il singolo post).

Esempio:

il sito X ha il codice QAZWSXEDC, che lo identifica univocamente in Google. Ad ogni articolo pubblicato sul sito X viene appeso un codice con data e ora, più un altro pezzo randomico. Per esempio un articolo pubblicato oggi alle 13:13 conterrebbe 201109131313, più alcuni caratteri a caso (RFVTGBYHN), e quindi l’identificativo completo del post risulterebbe QAZWSXEDC-201109131313-RFVTGBYHN.

Solo la pagina che include in un metatag (generato dal plugin) questo codice è considerata da Google la fonte originale, e se comunque la pagina viene integralmente copiata (sia nel contenuto che nel metatag) entra in gioco il controllo incrociato col nome a dominio, che penalizza gli eventuali copioni.

Perché fra i 3 elementi ho inserito anche il Googlebot? semplicemente perché servirà scatenarlo per fargli leggere “in anteprima” il contenuto. Sappiamo che da qualche tempo lo spider è estremamente veloce, ma qui ci occorre un sistema che permetta al bot di cachare il contenuto prima che questo venga pubblicato: se sia possibile farlo tramite il plugin (passandogli login e password del CMS) o con altri metodi più sofisticati, lo lascio decidere ai tecnici.

Se fra i lettori c’è qualche esponente di Google, o qualcuno in grado di segnalare a chi dovere questo post, mi piacerebbe ricevere qualche parere autorevole 🙂

Prova GRATIS SEMrush, il miglior tool per fare SEO/SEM!

29 Comments

  1. Filippo Arosio 13 Settembre 2011
  2. Rocco 13 Settembre 2011
  3. Massimo Fanti 13 Settembre 2011
  4. Vincenzo Galliano 13 Settembre 2011
  5. Mik 13 Settembre 2011
  6. Enrico 13 Settembre 2011
  7. urlo 13 Settembre 2011
  8. Fabio 13 Settembre 2011
  9. Tommaso 13 Settembre 2011
  10. Posizionamento siti Palermo 13 Settembre 2011
  11. Stefano Bagnara 13 Settembre 2011
  12. Rocco 13 Settembre 2011
  13. Gabriele Romanato 13 Settembre 2011
  14. Rocco 13 Settembre 2011
  15. Andrea Chiga 13 Settembre 2011
  16. Federico Zonca 13 Settembre 2011
  17. Tagliaerbe 13 Settembre 2011
  18. TixXio 13 Settembre 2011
  19. Lorenzo 13 Settembre 2011
  20. Sara 13 Settembre 2011
  21. Conrad 13 Settembre 2011
  22. Filippo Amadori 13 Settembre 2011
  23. Emiliano 13 Settembre 2011
  24. Tagliaerbe 13 Settembre 2011
  25. Rudy Bandiera 13 Settembre 2011
  26. salvatore 14 Settembre 2011
  27. Alex 15 Settembre 2011
  28. Andrea Moro 17 Settembre 2011
  29. Dario 16 Giugno 2013

Leave a Reply