Google dichiara guerra agli “Scraper Site”!

Dopo aver dichiarato guerra alle content farm a inizio anno, Google sposta ora l’attenzione verso gli scraper site, e in particolare verso i blog scraper (ovvero i blog che, in modo più o meno automatico, copiano i contenuti prodotti da altri siti).

Lo fa a partire da questo tweet di Matt Cutts,

Il tweet di Matt Cutts contro i Blog Scrapers

che in pratica dice più o meno così:

“Gli scraper fanno scendere il tuo sito? Comunicaci i blog scraper che trovi (nelle SERP): http://goo.gl/S2hIh Abbiamo bisogno di dati per fare dei test.”

Il link presente nel tweet punta ad un modulo costruito con Google Doc, chiamato Report scraper pages.

Il documento parte con una frase eloquente: “Google sta testando delle modifiche algoritmiche per gli scraper site (soprattutto per i blog scraper). Stiamo cercando degli esempi, e potremmo utilizzare i dati che ci sottoporrai per testare e migliorare i nostri algoritmi.” All’interno della pagina è possibile inserire la query di Google che mostra dove gli scraper superano il contenuto originale, l’URL della pagina col contenuto originale e l’URL dello scraper.

Scraper Update vs. Panda Update

Per quanto si parli sempre e comunque di contenuti di pessima qualità, in Google c’è una distinzione fra Content Farm e Scraper, distinzione già emersa diversi mesi fa.

Se ben ricordi, avevo infatti già parlato di uno Scraper Update – che avrebbe colpito gli Scraper a fine Gennaio 2011 – diverso dal Panda Update – mirato invece alle Content Farm.

Lo stesso Matt Cutts, il 28 Gennaio disse che “le query sono variate in una percentuale leggermente superiore al 2%, ma le variazioni evidenti riguardano meno di mezzo punto percentuale. L’effetto finale è che gli utenti avranno una maggior possibilità di vedere siti con contenuto originale piuttosto che siti che copiano o “estraggono” i contenuti dai siti originali.”

In quell’occasione è assai probabile che Cutts stesse parlando dello Scraper Update (anche se nel suo post il cambiamento dell’algoritmo non viene “battezzato” con un nome), che evidentemente non è però riuscito nell’intento di eliminare dalle SERP tutti gli aggregatori e copiatori di scarsa qualità.

Concludendo

Google si vede costretto a chiedere un controllo umano per “aggiustare” i suoi algoritmi.

Non è la prima volta e non sarà l’ultima, ed è sacrosanto utilizzare dei segnali umani per fare da cartina tornasole con quanto rilevato da un algoritmo; un esempio recente è l’estensione Personal Blocklist.

Però mi chiedo: è possibile che, nel 2011, Google non riesca ancora a stabilire la paternità di un contenuto? è così difficile trovare il modo di taggare un contenuto come originale (e di conseguenza gli altri come copie)? è così problematico premiare chi passa ore ed ore a scrivere contenuti di qualità, e penalizzare invece chi copia questi contenuti in modo truffaldino?

UPDATE: il 27 Febbraio 2014, Matt Cutts ha nuovamente tweettato il link relativo allo Scraper Report. Preludio di un nuovo giro di vite nei confronti dei “ladri di contenuti”?

Condividi su facebook
Facebook
Condividi su google
Google+
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su pinterest
Pinterest

42 Comments

  • Anche io mi chiedo in continuazione come sia possibile che con tanta tecnologia e tanti algoritmi molto sofisticati non si riesca a trovare un modo per stabilire la paternità di un contenuto web. Roba da far girare la testa a chiunque!

  • Pensa che non riescono neanche a trovare un algoritmo per capire chi non paga le tasse

  • L’unico modo che Google ha per stabilire se un contenuto è originale o meno è il Google Boot: cosa accade se lo spider dovesse passare prima da chi ti ha copiato e dolo dopo da te?

    Google Boot non può scansionare la rete ogni 30 secondi per stabilire la paternità di un articolo o meno

    Il problema è che essendo un algortimo, in caso di errore, Google sarebbe subissato da milioni e milioni di richieste, basta pensare al fuoco amico causato da Panda.

    Inoltre, considera che in molti campi, come il giornalismo, spesso una singola fonte viene poi presa e ripresa per giorni interni.
    Sposando le parole di Murdoch, “Il lettore non paga WSJ per avere le notizie, ma per leggere un punto di vista”. Facile, quindi, che WSJ per una certa logica potrebbe essere uno scraper content di lusso.

    Di fronte ad un contenuto oggettivamente uguale (prendiamo a caso i 50 post dedicati a Google Panda in Italia), a livello di bot, come stabilisci quale siano da salvare e quali invece semplici “scraper”

    Nemmeno un mix di link, trustrank o altro potrebbero salvarti, perchè in questo modo se un sito grosso mi “deruba” dello scoop, il piccolo blogger sarebbe fregato (e torniamo alla logica del monopolio delle informazioni come sulle TV e carta stampata)

    Per finire, ….. so cazzi 🙂

  • non si capisce piu’ nulla… ma si possono mandare anche segnalazioni in italiano o fanno i test sono in inglese?

  • Il metodo ci sarebbe, piu’ o meno. Nel momento che produco un contenuto lo mando in una sorta di enorme database di google. Ad esempio il taglia fa un articolo e lo manda a google. Google da quel momento in poi quando scagliona la rete, se vede un altro contenuto duplicato o eccessivamente simile, lo penalizza. L’autore originale sarà sempre il primo a mandarlo a google perchè lo farà immediatamente dopo aver creato il contenuto.

  • Secondo me, proprio questa volta google ha fatto un bel casotto. Si sono trovati penalizzati tanti siti, compreso il mio sito, ingiustamente. Proprio perchè si pensa che la rete sia fatta solo di blog. Si, perchè il discorso dei contenuti originali e/o di qualità si può fare un blog, ma non si può pretendere che un sito turistico possa avere dei contenuti inediti senza considerare che la struttura “X” è inserita chissà su quanti portali.

    Per chi no non lo sa, quando si inserisce la scheda di una struttura, per contratto “e dico per contratto”, deve avere la descrizione identica al sito principale della struttura stessa. Quindi già il fatto stesso che noi modifichiamo le descrizioni per non avere problemi con google, stiamo facendo una cosa illegale.

    Non è possibile quindi mettere un genere di siti alla pari con un blog, un sito turistico non potrà mai avere i contenuti originali di un blog!!

    Io penso solo (e menomale che non è andata così) a cosa sarebbe successo, se panda invece di pubblicarlo il 13 l’avesse pubblicato a inizio stagione estiva….che cosa avremmo fatto??? ovviamente mi sarei potuto sparare!!!

    Le cose vanno fatte in modo ponderato, non si può buttare la gente in mezzo ad una strada, quando poi una motivazione vera e propria non c’è!!!

  • Prendiamo in esame questo mio sito http://www.affittiprivatisalento.com/ cosa potrebbe avere di tanto sconvolgente, per essere penalizzato? forse perchè alcune strutture stanno anche su un altro sito?? e allora, come faccio a descrivere una struttura più volte facendo in modo che non appaia come testo copiato?

    Secondo me google deve darsi una regolata, ma più che altro bisogna che guardi caso per caso come stanno le cose. Il sito sopramenzionato è fatto veramente bene, con descrizioni scritte da noi in quasi tutte le pagine, cosa che non vedo su nessun sito, e specialmente sui grandi portali.

  • A me aveva stupito moltissimo scoprire che la paternita di un contenuto viene attribuita per trust e non per data di pubblicazione…

    Anche considerando la frequenza con cui passa il google bot non ci vorrebbe molto…

  • @Lucaseil
    Infatti, hai proprio ragione!!! e pensare che sul forum di google, uno di quei sapientoni, che quasi sia sono “collaboratori principali di google” affermava il contrario, diceva che google sa benissimo di chi è la parternità di un articolo. Non considerando che questo fatto poteva essere scavalcato benissimo dal fattore che dici tu.

    Prova eclatante questo articolo http://www.lecceturismo.it/attesa-per-la-grande-lirica-durante-il-premio-il-sallentino/1239.html, che ho pubblicato il 26 ed è stato indicizzato 2 giorni dopo. Bastava che uno qualsiasi lo avesse pubblicato su un blog con maggiore importanza per ritenere il mio come testo copiato!!!

  • Ciao,
    un modo potrebbe essere che Google, tramite il webmaster tool, rilascia una specie di bottone che viene inserito nelle pagine del sito/blog. Appena pubblichiamo un nuovo articolo si clicca sul bottone per richiamare “l’attenzione” degli spider e memorizzare in qualche modo il momento della pubblicazione… Una specie di “richiamo spider” a comando 🙂
    Tutti i contenuti che Google troverà successivi a quello saranno copie…
    Un’idea, non sò quanto tecnicamente realizzabile!! ciao!

  • La tua idea la vedo proprio buona…..ma come facciamo a farlo sapere a google??? eh eh 😉

    In ogni caso rimane il problema che dicevo in precedenza, cioè le descrizioni dei siti turistici. Che poi parlando con un amico pensavo, pensavo al fatto che google non fa proprio le cose giuste, infatti questa regola dei contenuti duplicati la applica solo ai “poveri Cristi”, che magari fanno anche le cose per bene. Invece al siti grandi non fa nulla.

    Prova pratica, provate ad incollare la seguente query in google e vedete in quanti siti è presente la stessa descrizione:

    Villetta sul mare bella vista, composta da patio fronte mare con porticato in legno attrezzato da tavolo e sedie. Nel suo interno vi sono un 1 bagno con doccia, cucina/soggiorno con divano letto, una camera matrimoniale

  • Ma per copiato intendiamo anche articoli copiati modificando qualche parole qua e la? Perchè in molti lo fanno….

  • Google non riesce ancora a beccare gli scraper

    In Italia tra i siti “vincitori” del Panda Update ci sono almeno un paio di Scraper ( o di aggregatori se volete chiamarli così) ….

  • @fabio
    Quelli che dici tu sono gli scraper, come giustamente dice Luca Bove.

    @Luca Bove
    Quindi tu consigli di non pubblicare più contenuti sugli aggregatori? e pubblicare news su, es: fai.informazione.it ? secondo te anche questo tipo di diffusione dei contenuti potrebbe nuocere?

  • quanto meno da adesso si potranno segnalare siti scraper a Google sperando che quest’ultimo gli infligga una punizione(penalizzazione o fustigazione pubblica?)…

  • Ho beccato almeno quattro o cinque siti ultimamente che hanno fatto copia incolla di parecchi miei contenuti senza neppure likarmi (solo copia incolla e poi HANNO PIAZZATO IL LORO ADSENSE)
    Con questi, il problema più che rivolgersi a google penso sia rivolgersi ad Agcom.
    Di questo problema ne aveva gia parlato Robin Good parecchie volte.
    Certo, sui siti in lingua inglese controllare e gestire la cosa diventa più complessa.

  • Partendo dall’esempio fatto da “SITI INTERNET” basterebbe qualcosa di quel tipo per riuscire a carpire la “paternita’ ” di un articolo o contenuto:

    1) Un bottone speciale

    2) Un tag speciale e nominale (certificato in qualche modo)

    3) Un canale webmaster certificato (ma non ho la piu’ pallida idea di come si possa creare)

    Sul discorso delle directory e dei portali turistici o di “elenchi”i “contatti delle varie strutture” saranno sempre uguali (a meno che non cambiano residenza del resort) quindi si potra’ fare NULLA o quasi. (Almeno,a me al momento NON viene in mente nulla 🙂

  • @Andrea
    Il problema principale è che si perde tanto tempo a controllare i contenuti ed effettuare segnalazione a google.

  • Mi piacerebbe sapere cosa direbbe Google se il suo metodo fosse applicato per stabilire la paternità di un brevetto (a cui anche loro sono molto “sensibili”, vedi cronache recenti…)

    saluti a tutti
    P.

  • … vorrei anche aggiungere che Google non è il web, ma ne è solo una parte (attualmente) importante.

    Il web siamo noi utenti e produttori di contenuti nella loro variegata complessità.

    Non facciamoci fregare dalla paura di non essere indicizzati, ma produciamo contenuti di qualità, il resto verrà da sè. Se Google non ha bisogno di noi, noi non dobbiamo più avere bisogno di Google, che, ricordiamoci sempre, è un’azienda privata che fa il proprio business e fa ciò che vuole.

    Proviamo anche ad immaginare altre forme di comunicazione (vedi i progetti di newsmastering monotematici da sempre teorizzati da Robin Good (v. ad esempio scoop.it).

    Anche noi “piccoli cittadini del web parlanti italiano” e gioco-forza esclusi dalle logiche dei grossi portali editoriali dobbiamo conquistarci il nostro diritto di cittadinanza conquistandoci nuovi territori e costruendoci le nostre case.

    Immagino che 100 o 200 “piccoli produttori di contenuti di qualità” potrebbero avere più visibilità realizzando dei “luoghi” e condividendo i propri contenuti di qualità.

  • Sono per buona parte d’accordo con Nonsolosalento. Soprattutto nella promozione turistica è abbastanza fisiologico ritrovarsi con schede molto simili. Le caratteristiche fondamentali delle strutture restano (anzi devono restare) tali e quali ovunque le si trovino. E’ vero che il problema della duplicazione dei contenuti andrebbe un attimo contestualizzato.

    C’è inoltre un altro aspetto su cui mi interrogo da un po’: si parla tanto dell’importanza dei contenuti, voci più che autorevoli elogiano i siti con contenuti freschi ed aggiornati. E questo per i siti editoriali e/o grandi portali mi pare sacrosanto.
    Ma soprattutto in Italia ci sono numerose piccole realtà che vendono online con una gamma ristretta di prodotti (che resta invariata anche per anni) ma ugualmente in grado di soddisfare specifiche nicchie di mercato.
    In questi casi, che senso ha incoraggiare i webmaster/markeeter a sovraffollare i siti con contenuti che per forza di cose tendono a essere molti simili fra loro?

  • L’ho detto e lo ripeto: secondo me l’algoritmo per quanto riguarda i testi copiati andrebbe diversificato e rivisto. Non si può trattare un sito turistico o elenco di prodotti, come un blog o sito di notizie. E fino a che google non farà questo saremo costretti ad aumentare la popolartà facendo scambio link……cosa che odio tremendamente!! Più che altro perchè si a che fare con gente che non capisce il senso dello scambio link e s’attacca ancora al PR.

  • due considerazioni:

    – per i siti pieni di contenuti copiati, nessuna scusante; sono vere e proprie attività illegali che andrebbero trattate per tali.

    – per i siti di turismo ecc… a mio avviso è giusto che escano bene quando si cerca specificatamente un servizio turistico, e che escano male quando si cercano informazioni diverse su un posto ecc…
    Così come i motori dovrebbero riuscire a distinguere quando si cerca una recensione di un oggetto, piuttosto che un’elenco di prezzi e di offerte…
    Ancora non ci siamo, ma la strada si spera sia quella.

  • @Nonsolosalento sai perché sei stato penalizzato? perché il Web è strapieno dei siti come il tuo, pieni di inserzioni, affitto, vendita, ricette delle friselle, del polpo a pignata e schede informative su Otranto, Gallipoli e le bellezze della Puglia.
    Non è un attacco personale ma sono sicuro che l’esperienza utente su un sito del genere è pessima. Il resto vien da sé.

    E complimenti per la mega spammata distribuita.

  • @GenesiSaw a me il sito super-motori.it sembra un aggregatore di feed rss…

  • @Andrea R
    Tranquillo, accetto consigli da tutti.
    Tu come lo avresti impostato il sito? non credo ci siano molti modi di impostare un portale turistico. Almeno io inserisco sempre una descrizione in ogni sezione, nei portali grandi come booking.com hanno solo descrizioni delle strutture e basta…..magari copiate e stracopiate.

    Quale sarebbe la mega spammata distribuita? sarei curioso di sapere dove hai visto questa “mega spammata distribuita” 😉

  • @Nonsolosalento la spammata sono i vari link ai tuoi siti penalizzati e non … io avrei evitato, ma fa niente.
    Tornando al discorso dei portali come il tuo che hanno subito una mazzata da Google… bisognerebbe tentare nuove strade, a quanto sembra. Senza guardare booking e company che ormai sono solidissimi e intoccabili, giustamente. E come detto prima lavorare molto sulla UX. Sembra facile a dirsi 😛

  • Ti riferisci ai link dei commenti? ma se sono tutti NOFOLLOW, che importanza possono avere?

  • Credo che la sorta di pingout ipotizzato da “siti internet” sia teoricamente l’unica soluzione valida: chi per primo pubblica vuol dire che ha prodotto il contenuto.
    Peccato sia irrealizzabile. Come dice deart, Google non è il web e tantomeno può dettare regole per tutti ne’ premiare chi lo “avvisa” quando sta pubblicando qualcosa a scapito di chi non lo fa.
    A mio parere le recenti esternazioni sugli “scrapers” sono solo deterrenti (bluff) atti a contenere un fenomeno che sta preoccupando sempre più Big G.

  • Finalmente google va in soccorso dei siti seri… Era ora!
    In passato un mio sito (leader del settore) ha subito una penalizzazione da google in quanto un sito concorrente copiava i contenuti già pochi minuti dopo la nostra pubblicazione e riportava poi la notizia anche su vari social etc. con link alla notizia sul suo sito…
    Con questo metodo così elementare è riuscito a far credere per mesi a google che era lui l’autore 🙁
    Quindi era ora che google ci venissi incontro almeno in questo!!!

  • Per chi volesse usare la Report scraper pages in italiano questo è il link: http://tinyurl.com/3wleu2n. Purtroppo al momento il meccanismo suggerito da Matt non sembra essere valido. Per testarlo ho analizzato i primi 10 risultati nella serp di una keyword molto inflazionata: 8 risultati su 10 portavano a risorse non attinenti, con scarsi contenuti e non aggiornate da più di un anno. Ho segnalato la cosa tramite l’apposita pagina e a distanza di 10 giorni non è cambiato nulla.

  • Come per i siti di shopping, tutti più o meno penalizzati, google vuole sbarazzarsi anche degli aggregatori come lui per non avere concorrenza anche nel search. Con gli aggregatori tematici google non sarebbe più l’ unico portatore di traffico per un buon numero di siti web.

    Io ho già segnalato google… e tu??

  • speriamo non sia la solita bufala, dove chi copia non viene penalizzato e chi non copia si….

  • Saro’ duro. Ma non avere un brand che attiri e molto conosciuto e’ sintomo che qualcosa non quadra. Va bene non tutti possono permettersi pubblicita’ a livello nazionale , ma per google questo e’ diventato un fattore molto importante. Twitter,facebook e altri social fanno parte della “baracca” quindi sperare di stare in prima posizione con un articolo scritto 6 anni e lamentarsi dopo 6 anni che e’ finito in 100 posizione a me pare illogico. E’ indubbiamente penalizzante per alcuni webmaster che magari han tutto tutte le cose a modino intendo… pagano tasse ecc ecc, ma purtroppo le cose stanno andando cosi’ nolenti o volenti… quindi se avete ancora voglia si continua… altrimenti ripeto c’e’ posto per tutti su internet amatoriale e non!

  • Io credo che è il meccanismo ad essere sbagliato…

    Quando viene pubblicato un determinato articolo, non dovrebbe essere Google a venirlo a cercare; dovrebbe essere segnalato automaticamente a Google dall’autore stesso. In modo tale che quando il post viene ripubblicato da uno “scraper site”, la data di pubblicazione sarà successiva a quella della segnalazione e sarà facilmente individuabile il contenuto originale.

    Ho detto una boiata, che ne pensate?

  • @Federico: sul tema ho qualche idea strampalata, prima o poi ci faccio un nuovo post 😉

  • Mi viene un dubbio, scusate se ricommento un vecchio articolo: OkNotizie, Il Bloggatore e compagnia “ripetitrice” potrebbero essere in qualche modo considerati “scraper sites”? Io temo di sì, anche se l’idea originale dovrebbe essere una sorta di abuso del vecchio concetto di “open content”.

    Secondo me, comunque, il criterio per attribuire la paternità di un articolo c’è da qualche mese ed è stato esposto chiaramente nel blog ufficiale di Google: si tratta di una specie di “scambio link” tra il tuo profilo G+ e gli articoli che scrivi. Una cosa talmente semplice e sicura che era strano non averci pensato prima!

    Il fatto è che i webmaster difficilmente la usano o la guardano sempre e comunque con scetticismo, e in molti casi per un certo meccanismo “non ci tengono” ad essere visti come autori del contenuto (perchè ad esempio hanno copiato a loro volta)…

  • Grazie per la segnalazione, Taglia, userò subito questo modulo e speriamo che i furbetti spariscano dalla rete 🙂

Rispondi

Max Valle
Max Valle

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Seguimi sui social
Iscriviti alla Newsletter
Main sponsor

Sponsor

Scroll to Top