Come riconoscere la paternità di un contenuto

La dichiarazione di guerra agli Scraper Site ha mostrato – anche se non ce ne era bisogno – che Google ha serie difficoltà a riconoscere la fonte originale di un contenuto.

Ad oggi si basa principalmente sull’autorevolezza/trust di un sito, che si crea in base ad un mix di anzianità, qualità/freschezza/numero dei contenuti, link in ingresso, fattori sociali e tanti altri piccoli segnali che Google legge e interpreta per stabilire qual è l’originale e quale la copia.

Questo modus operandi del motore di ricerca, spesso e volentieri, fa emergere dalle SERP siti che copiano/aggregano contenuti di terzi, siti che vengono però visti come più autorevoli della fonte originale e quindi vengono premiati a discapito di quest’ultima.

In altre parole, se la prima sorgente di un contenuto non è autorevole agli occhi del motore, viene penalizzata quasi come fosse uno dei tanti “copioni” presenti su Internet – se questi copioni hanno un trust maggiore della fonte.

A questo nonsense totale, che deprime che scrive e riempie il web di spazzatura ridondante, credo che Google debba mettere fine con un provvedimento un po’ più drastico della “segnalazione volontaria” degli scraper.

Proposta per un algoritmo che riconosca i contenuti originali

Premessa: non sono un analista, un programmatore o un ingegnere, non capisco una mazza di algoritmi e quanto scrivo è solo in base al mio (limitato) buon senso.

La mia proposta è molto semplice, probabilmente già pensata da molti altri, e richiede il supporto di questi elementi:

• un CMS (o meglio un plugin sviluppato da Google per integrarsi al CMS)
• Google Webmaster Tools
• il Googlebot 🙂

Partiamo dal CMS e dal plugin: personalmente, per un test iniziale, propenderei per WordPress, che a quanto pare è utilizzato dal 14,7% dei top million website del mondo e dal 22% dei nuovi domini attivati negli USA.

Il plugin dovrebbe semplicemente far comparire un quadratino da flaggare all’atto della schedulazione del post, qualcosa di questo tipo:

Plugin WordPress per contenuti originali

In pratica, al termine della scrittura dell’articolo, mentre decido il giorno e l’ora di pubblicazione, invio a Google l’articolo reclamandone la partenità.

Spuntando il quadratino sto dicendo a Google: “Ehi, questo articolo è mio, mettilo nella tua cache, e ricordati che è l’originale. Tutti gli altri che vedrai in giro sul web sono copie, e come tali andranno trattate ai fini del ranking.”

Ovviamente Google confronta il contenuto con le altre pagine presenti nel suo database, e se questo è effettivamente originale lo cacha (inviando conferma all’autore). Se il contenuto è copiato, parzialmente o integralmente, invia un alert al webmaster dicendogli: “Attenzione, il contenuto dell’articolo non è originale. Verrà indicizzato con priorità inferiore e posizionato almeno trenta risultati dopo il contenuto originale, oppure finirà nell’indice supplementare.”

Fra gli elementi necessari a far funzionare il tutto ho citato anche gli Strumenti per i Webmaster di Google, nonché il Googlebot.

Il primo sai benissimo come funziona: Google ha vari sistemi per verificare che tu sia il proprietario di un sito, e potrebbe utilizzare la stessa logica per accertare la paternità dei contenuti.

Per esempio, un codice univoco generato dagli Strumenti per i Webmaster di Google potrebbe essere inserito nel pannello di amministrazione del plugin, ed “impresso” sui singoli post come una sorta di filigrana: metà del codice potrebbe essere sempre uguale (ovvero quello relativo al sito), mentre l’altra metà potrebbe essere variabile (e quindi identificare il singolo post).

Esempio:

il sito X ha il codice QAZWSXEDC, che lo identifica univocamente in Google. Ad ogni articolo pubblicato sul sito X viene appeso un codice con data e ora, più un altro pezzo randomico. Per esempio un articolo pubblicato oggi alle 13:13 conterrebbe 201109131313, più alcuni caratteri a caso (RFVTGBYHN), e quindi l’identificativo completo del post risulterebbe QAZWSXEDC-201109131313-RFVTGBYHN.

Solo la pagina che include in un metatag (generato dal plugin) questo codice è considerata da Google la fonte originale, e se comunque la pagina viene integralmente copiata (sia nel contenuto che nel metatag) entra in gioco il controllo incrociato col nome a dominio, che penalizza gli eventuali copioni.

Perché fra i 3 elementi ho inserito anche il Googlebot? semplicemente perché servirà scatenarlo per fargli leggere “in anteprima” il contenuto. Sappiamo che da qualche tempo lo spider è estremamente veloce, ma qui ci occorre un sistema che permetta al bot di cachare il contenuto prima che questo venga pubblicato: se sia possibile farlo tramite il plugin (passandogli login e password del CMS) o con altri metodi più sofisticati, lo lascio decidere ai tecnici.

Se fra i lettori c’è qualche esponente di Google, o qualcuno in grado di segnalare a chi dovere questo post, mi piacerebbe ricevere qualche parere autorevole 🙂

Condividi su facebook
Facebook
Condividi su google
Google+
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su pinterest
Pinterest

29 Comments

  • Io ultimamente ho osservato che i risultati di google sono molto più orientati al “chi pubblica prima”.

    Mi spiego meglio, in molte SERP dove appaiono risultati di argomenti trattati su diversi blog si nota come spesso il contenuto venga ordinato quasi per data di pubblicazione. (nulla di scientifico è solo un osservazione pratica)

    Comunque Google attraverso sitemap aggiornate istantaneamente, servizi di ping e quant’altro credo possegga tutti i mezzi per stabilire quale sia il contenuto originale.

  • Non trovi possa essere più semplice legare alla temporalità e alla consequenzialità temporale di eventi la certificazione del contenuto? Elimineremmo i processi di confronto dell’intero file criptandolo e abbinandolo a un sistema che ne riduca le collisioni legando l’hashing a l’hash dell’operazione precedente ricevuta da terzi parti. Credo si chiami DTS per digital time stamp. Il plugin potrebbe curarsi di alleggerire ulteriormente il carico ai server google. Il difetto a mio parere è che basta cambiare poco per cambiare tutto agli occhi di un robot. Sia un hash (ottimizzazione di tempo e risorse) sia un confronto diretto basato sull’analisi sul contenuto potrebbero permettere (entro uno stato economicamente sostenibile di cose) di eliminare dal mercato quegli elementi che già sono rintracciabili con i mezzi attuali. Poi ora siamo nell’era social… è l’uso e l’urgenza del contenuto che ne fanno il primo e l’originale per il semplice motivo che è il più fruito e meglio curato (magari) e ovviamente distribuito in relazione all’autorevolezza della fonte.

  • Io vedo una marea di problemi sia concettuali che pratici.

    Te ne cito qualcuno.

    In primis vedo un problema concettuale; in questo modo rovesciamo il concetto di spider, di indicizzazione…non è piu il motore a trovare noi, ma noi a dover farci trovare.. OBBLIGATORIAMENTE!

    Dai per scontato che nel mondo esista solo Google (lo so che più o meno è così…ma probabilmente non lo sarà per sempre…dovremmo così un giorno trovarci ad avere decine di plugin per dire che io sono il primo?)

    Altro problema è se un sito non usa (per mille motivi, da quelli tecnici a quelli di filosofia, ecc) il plugin, il primo che copia e usa il plugin viene definito da google l’originale…in questo modo si ammazzerebbero tutti i piccolissimi/inesperti blogger che invece, magari, hanno contenuti veramente ottimi…

    Questi sono i primi che mi vengono in mente.. 🙂

  • Ciao,
    complimenti per l’articolo…. l’idea è ottima e sarebbe eccezionale se creassero un sistema del genere.

    Per adesso mi chiedevo se segnalare un nuovo contenuto tramite l’addurl di google, possa essere sufficiente (o cmq utile) per comunicare al motore che l’originalità di quel contenuto appartiene al nostro sito/blog. Che ne pensi?

  • Il metatag secondo me è inutile perché se uno oltre a copiare un articolo ne copia il metatag, diventa anche lui l’autore.

    Viceversa il ping aiuta. Non risolve del tutto il problema, perché rimangono scoperte le traduzioni, i riadattamenti, i mashup … inoltre non è detto che l’autore pinghi, e quindi il primo copiatore che pinga diventerebbe l’autore.

    Si può migliorare prevedendo l’invio con SOAP, di un XML contenente titolo, contenuto, ecc. l’elenco delle URL:
    – legittimate a pubblicare l’articolo
    – che hanno ispirato l’articolo
    – di cui l’articolo ne è la traduzione
    ecc.

    Infine, una volta ricevuto l’articolo, Google potrebbe conservarlo vita natural durante nel webmaster tools, dal quale si può scaricare un certificato con firma digitale che attesta che quell’articolo, o immagine, ecc. è stato inviato in data X, e questa prova può essere portata in tribunale.

  • Vi segnalo che il ping da WordPress a Google (e ad altri servizi) avviene in automatico e di default già da tempo.

    Di per sé non è sufficiente a determinare la paternità di qualcosa ma potrebbe essere un utile segnale tra i tanti da prendere in considerazione per individuare la fonte originale.

    Mi chiedo se tutti i siti che hanno sofferto perdite di visibilità a causa degli scraper pinghino diligentemente Google e altri motori di ricerca alla pubblicazione di ogni nuovo post.

    La filosofia di sviluppo in Google mi lascia credere che una soluzione del problema dovrebbe avvicinarsi più ad un sistema che non richieda un’autenticazione esplicita dell’autore. Qualcosa di simile a quanto suggeriva Rocco e basato sull’analisi della consequenzialità temporale. Questo garantirebbe la scalabilità della soluzione e un sistema semplice da implementare.

    Il problema che sta alla base della soluzione proposta e di tutte le altre che sono state proposte in passato è sempre lo stesso e lo ha accennato Mik: decidere se un articolo è uguale o simile ad un altro rimane una decisione *arbitraria* da parte del motore.

    Io posso prendere un articolo pubblicato su un blog, cambiarne un po’ le frasi e ripubblicarlo. Chi decide la percentuale di similarità oltre la quale si può parlare di “copia”?

    All’identificazione della fonte originale di una copia perfetta si arriverà lentamente nel corso del tempo. Il vero incubo rimangono i casi di articoli simili, parafrasati, copiati parzialmente o modificati in più punti.

  • Sono d’accordo sul principio di “tutelare” l’autore di un testo a discapito di chi lo forwarda ma ciò che proponi è semplicemente inattuabile, basterebbe post datare la pubblicazione ed il gioco è fatto!

  • @Massimo Fanti… “in questo modo si ammazzerebbero tutti i piccolissimi/inesperti blogger che invece, magari, hanno contenuti veramente ottimi…” esattamente come avviene ora dato che i piccoli, recenti o inesperti blogger hanno sicuro meno trust di aggregatori o di altri siti ormai da piú anni, o più “spinti”

  • Io sono un po contrario a questo sistema di autenticazione degli articoli. E’ riaggirabile e anche piu contorto. Ci vuole un sistema piu semplice e lineare che Google stesso deve adottare.

  • Complimenti il tuo blog mi piace molto e lo seguo davvero volentieri!
    Anche io non sono programmatrice nè niente del genere quindi non capisco i vari problemi di natura più tecnica, ma il duplicate content è una delle cose più insopportabili del web al giorno d’oggi.. mi è successo più volte di ritrovare i miei articoli scopiazzati in giro per siti vari ed eventuali 🙁

  • @Fabio per l’appunto la cura proposta nell’articolo non risolve il problema principale per il quale viene proposta.

    +1 alle osservazioni di Massimo Fanti che condivido in pieno.

  • Smentisco che l’indicizzazione sia una questione di velocità sul caricamento. Io personalmente ho svolto degli esperimenti creando un semplice aggregatore con wordpress ovviamente con qualche piccolo trucco seo. Il risultato è che i siti che hanno un processo più lento per indicizzarsi (si segnalano dopo) oppure non integrano le sitemap oppure (cosa molto più facile) raccolgono meno contenuto o lo mostrano in modo meno ottimale al motore vengono penalizzati sulle serp. E stiamo parlando di un aggregatore che non abbellisce nulla di nulla. Anzi…graficamente era pure brutto a vedersi. Da questo affare ne sono uscito con dei dati ottimi su questo argomento e su adsense (esperimento ancora in corso) …sono riuscito a farmi escludere e nel mio blog (quando lo completerò se mai lo farò) racconterò come fa adsense a tutelarsi dal click fraud (parola di rocco)

  • Google ha comunque imparato a distinguere tra autori trusted e untrusted. L’ho notato aprendo il mio sito in italiano che ora corre in parallelo a quello in inglese. Quando tu pubblichi molto, dopo un pò il tuo nome viene associato ad una determinata area tematica (nel mio caso sviluppo web). Anch’io ho il problema dello scraping da ogni parte del mondo, ma questo non ha mai influito sui miei contenuti. Quello che influisce è:

    1. qualità dei contenuti
    2. frequenza di aggiornamento
    3. specificità
    4. originalità
    5. permanenza sul web (nel mio caso, 6 anni)

    Tutti questi fattori, alla lunga, portano Google a considerare l’autore come trusted. Il mio sito in italiano ha neanche tre mesi di vita e già quasi 5 di page rank. Credo che Google abbia premiato il sito per i 5 motivi sopra elencati, oltre che per far parte della produzione di un autore trusted.

    Ossia, Google premia l’onestà e l’originalità dell’autore, quindi come consiglio vi posso dire di evitare assolutamente di riportare articoli fatti solo di news o di cross-reference con altri siti. Siate assidui e originali.

    ciao 🙂

  • Mi ritrovo spesso a ripubblicare comunicati stampa ed articoli non originali e vorrei far presente che non è detto che chi li pinga per primo ne sia anche l’autore…

    Un contenuto può essere già presente online ma non ancora indicizzato, potrei allora ripubblicarlo da un’altra parte e fare il ping…

    Oppure può essere stato diffuso solo in versione cartacea, la testata lo renderà disponibile online solo in un secondo momento, io potrei pubblicarlo online per primo…

    Certo, poi volendo ci sono anche le vie legali ma questo penso sia un altro discorso…

    Ed in ogni caso attualmente, anche se non lo pubblico per primo e non ne sono l’autore, sono quasi sempre premiato da Google per via del trust dei miei siti, a riconferma di quanto scritto sopra dal Tagliaerbe…

  • Ringrazio Tagliaerbe per aver esposto un problema molto sentito e soprattutto ormai diffuso, come leggo dai commenti.
    E’ la prima volta che scrivo dopo mesi nella my new WWW Job experience ma per informarmi leggo centinaia di blog (SEO, web design, hw, sw, cms, cloud, mobile) molti dei quali di voi commentatori, forse dovrei premere di più i bottoni sociali…lo farò.

    Un articolo postato su un blog può essere considerato alla stregua di un articolo di giornale o di un libro, cioè può essere considerata un’opera coperta dal diritto d’autore? Secondo me, sì leggendo http://www.siae.it/Faq_siae.asp e http://www.sib.it/it/aree-di-attivita/diritto-dautore/faq/diritto-dautore.html. Secondo voi?

    Se fosse possibile adottare (i blogger o Google, come webmaster tool) un sistema simile al software che controlla l’originalità delle tesi di laurea in certe università italiane e internazionali prestigiose, credo che si ridurrebbe notevolmente l’attività di mero copia, incolla e modifica qua e là perchè l’autore non originale incorrerebbe anche in sanzioni pecuniarie.

    Cosa ne pensate?

    P.s. Tagliaerbe non ricevo più la newsletter, leggo direttamente dal blog, il problema persiste.

  • @Enrico: hai ragione sul ping, direi che l’etichetta a fianco al quadratino sarebbe meglio cambiarla in “reclama la paternità del post”, o qualcosa di simile 🙂

  • L’idea potrebbe essere buona, anche se comporta grande lavoro da parte degli utenti.

    Generalmente credo che gli utenti, meno cose debbano fare, meglio sia.

  • Sennò c’è sempre il metodo più antico e semplice e cioè, comunicare a Google che, ad esempio, i contenuti del proprio sito sono anche ceduti a siti terzi, magari con un page rank più alto del proprio e, quindi, con il potenziale rischio che G privilegi i secondi e consideri spam i primi: in questo modo, si evita di essere considerati degli spammatori.
    Noi l’abbiamo risolta così 🙂

  • E chi non ha il plugin installato si vedrebbe rubare il contenuto legalmente.
    E chi non ha cms ma un’applicazione custom dovrà spendere soldi per una (spesso difficoltosa) intergrazione.
    Google è = ad algoritmo, è lui che deve capire la paternità di un contenuto.
    Se lasciamo in mano ai proprietari o ai webmaster l’anello di congiunzione tra contenuto e paternità ci ritroveremo con furbni e furbetti sempre davanti (più di adesso) e google che, a differenza di ora, non potrebbe fare nulla.

  • Da programmatore vi posso dire che fino ad ora il pensiero migliore è quello di Enrico.
    In effetti qualsiasi Cms per blog, che così possa essere definito, esegue il ping automatico ad ogni pubblicazione verso uno o più servizi. Questo sistema unito alla sequenzialità (ovvero la data) di pubblicazione è l’unico sistema per verificare l’originalità dell’articolo, se poi qualcuno non pinga, bhe! che dire, se vuoi essere reputato originale ti devi dare da fare in qualche modo.
    Cosa non possibile per una macchina (almeno per ora) è la capacita arbitraria di decidere quanto un articolo assomigli ad un altro, almeno che non si usi un complicato algoritmo di calcolo sulla quantità di parole, sinonimi ed assemblazioni di frasi (farlo tra 2 o 3 articoli è un conto, farlo su 2 milioni equivale ad un consume di risorse tremendo).

    Spero invece che dall’algoritmo di google venga rimossa la parte dedicata alla “permanenza sul web” perchè in caso contrario troveresti per primi sempre i soliti e magari con contenuti di dubbia fattura, spostando in basso i nuovi blogger magari con contenuti più freschi.

  • @Massimo Fanti Altro problema è se un sito non usa (per mille motivi, da quelli tecnici a quelli di filosofia, ecc) il plugin, il primo che copia e usa il plugin viene definito da google l’originale…in questo modo si ammazzerebbero tutti i piccolissimi/inesperti blogger che invece, magari, hanno contenuti veramente ottimi…

    Quoto in pieno. Questo sistema svantaggerebbe chi non segue o comunque non sfrutta quest’opzione. Infatti al mondo esistono migliaia di siti, con migliaia di piattaforme diverse e addirittura molti con piattaforma personalizzata, sarebbe impossibile la disponibilità di un plugin per tutti questi siti, o non è detto che il proprietario abbia tempo o voglia di aggiornare…

  • Beh, l’attuale algoritmo e quello “pro-paternità” potrebbero comunque girare in parallelo… e se la nuova fosse una funzionalità inclusa in automatico in tutte le nuove release di più famosi CMS (tipo WordPress, Joomla e Drupal) un bell’aiuto potrebbe darlo (anche solo dal punto di vista “dissuasivo”).

  • Non ho letto tutti i commenti, e me ne scuso, ma sono di corsa. L’idea è sicuramente buona ma secondo me virtualmente irrealizzabile. Se Google domani decidesse un processo simile sarebbe una mano tesa a WP e uno schiaffo a tutto quello che non è WP, con conseguente zibaldone internazionale. Temo che la cosa si debba standardizzare, la cosa delle uscite temporali dico, ma in modo diverso ed imparziale.
    Aloha.

  • mi scuso per l’ennesimo intervento tardivo, ma l’argomento è molto interessante… e secondo me Google ha già dato dal suo blog ufficiale la soluzione più “liscia”.

    Si tratta di linkare tutti i propri articoli con attributo rel=”me” o rel=”author” verso il nostro Google Profile e, di rimando, inserire i propri siti tra quelli del proprio profilo Google Plus. Vi linko il post ufficiale di Google a riguardo: si tratta quindi di una sorta di “scambio di link” tra il profilo G+ (in cui gli outbound link sono sempre sottoil nostro controllo) ed i singoli nostri articoli. ovviamente non risolve il problema più generale della paternità degli articoli di un multiblog, ma se non altro mette una “pezza” difficilmente aggirabile.

    credo infine, almeno a naso, che la soluzione sia più robusta di un sistema di ping qualsiasi, tenendo conto che le intestazioni dei pacchetti sono falsificabili e che posso “cambiare identità” facilmente su internet non sarei comunque tutelato da copioni e furti d’identità…

  • @Salvatore anche io avevo pensato la stessa cosa ma c’è un problema, google non è l’unico motore di ricerca al mondo, è il più usato siamo d’accordo, ma non è comunque l’unico 🙂

    L’ideale sarebbe un qualcosa di standardizzato ma allo stato attuale delle cose ci sono troppe variabili in gioco per poterne uscire fuori facilmente imho.

  • Idea interessante, avessi avuto la possibilità di leggere l’articolo quella mattina ne avrei certamente parlato con alcuni Googlers mentre ero al summit dei TC a Mountain View.

    Vedrò di beccare qualcuno del team appropriato per segnalargli l’idea, di cui ti confermo anche li sono sempre a caccia.

  • Posso confermare che google guarda principalmente la data di pubblicazione. Ad esempio l’articolo che ho linkato mi è stato copiato da diversi blog/servizi truffaldini.

    A seguito di una segnalazione di un utente, ho apportato una piccola correzione nell’articolo (si trattava di una frase sbagliata), il giorno dopo la modifica dell’articolo, tutte le visite che prima andavano a quell’articolo hanno iniziato a dirigersi verso i blog che me l’hanno copiato. (quindi credo che guardi l’ultima modifica google. Non so se memorizza interi siti, ma potrebbe anche solamente guardare le copie cache che sono in giro per la rete)

    Certo poi se inizi a compilare un DMCA ti passa la voglia di compilarlo :/. Alla fine rischi solo più danni che vantaggi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Max Valle

Max Valle

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, 
aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Seguimi sui social

Iscriviti alla Newsletter

Main sponsor

Scroll to Top

Utilizziamo i cookie per personalizzare contenuti ed annunci, per fornire funzionalità dei social media e per analizzare il nostro traffico. Condividiamo inoltre informazioni sul modo in cui utilizza il nostro sito con i nostri partner che si occupano di analisi dei dati web, pubblicità e social media, i quali potrebbero combinarle con altre informazioni che ha fornito loro o che hanno raccolto dal suo utilizzo dei loro servizi. Acconsenta ai nostri cookie se continua ad utilizzare il nostro sito web. Per maggiori informazioni visualizza la Privacy & Cookie policy