Il “Nuovo Google”: Trust, più Fatti e meno Link?

Google Trust

Negli ultimi giorni ha fatto parecchio rumore la notizia riportata da New Scientist, secondo la quale Google starebbe pianificando di classificare i siti in base ai “fatti” che contengono, e non più in base ai link che ricevono.

Il progetto, rilanciato malamente da un sacco di agenzie stampa, quotidiani e riviste, ha comunque delle basi reali, o perlomeno esiste un documento nel quale 7 ricercatori di Google ne tracciano i contorni: proviamo ad approfondire un po’ la cosa.

“La Conoscenza Basata sulla Fiducia”

Il PDF, intitolato “Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources” (potremmo tradurlo come “La conoscenza basata sulla fiducia – Stimare l’attendibilità delle fonti sul web”), espone i dati di uno studio basato su un database di 2,8 miliardi di “fatti” estratti dal web, con l’obiettivo di stimare l’affidabilità di 119 milioni di pagine e 5,6 milioni di siti.

L’idea è insomma quella di evitare il solito approccio esogeno (=basato su segnali esterni), per tentarne uno endogeno (=basato su segnali interni).

Più una fonte contiene fact (ovvero dati di fatto, verità), più guadagna trust (diventa affidabile/attendibile), e meglio si posiziona sul motore di ricerca.

La “verità” ha la meglio sulla popolarità (con buona pace dei siti di gossip 😉 ).

All’inizio c’era il “TrustRank”

Anche se in molti han riportato la notizia come se fosse una novità assoluta, in realtà sono parecchi anni che Google lavora per attribuire un livello di “trust” ad un sito web (e anche all’autore dei contenuti pubblicati online).

Combating Web Spam with TrustRank” risale infatti al lontano 2004, e anche se si trattava di un documento redatto da ricercatori di Stanford e di Yahoo!, pare che Google abbia fatto proprio il termine nel 2005, arrivando poi ad un brevetto (depositato nel 2006 e assegnato nel 2009) dal titolo “Search result ranking based on trust“.

Nell’abstract del brevetto, si legge di un sistema che fornisce e classifica i risultati di ricerca proprio in base al loro livello di “trust”.

Come raccontava Bill Slawski nel lontano 2009, “l’idea del brevetto è che gli esperti su molti argomenti si possono trovare su molti siti diversi, ovunque siano in grado di esprimersi (blog, siti di agenzie stampa, community, forum).

Se ci fosse un modo per “riflettere” l’affidabilità di una pagina web, o dei commenti o delle opinioni associate ad una pagina, questo potrebbe aiutare a fornire risultati di ricerca più “significativi”.

L’uso dei “Seed” per determinare il Trust

Se questa interpretazione di Slawski risulta più spostata verso l’autore del contenuto, c’è anche un altro brevetto che è invece più focalizzato ad attribuire un livello di “trust” al sito stesso.

In questo caso parliamo di “Host-Based Seed Selection Algorithm for Web Crawlers, depositato nel 2008 e assegnato (a Yahoo!) nel 2010, che cerca di valutare quali parametri rendono un sito un buon seed site agli occhi dei motori di ricerca.

Ma cosa sarebbe un seed site?

In buona sostanza, è un sito del quale il motore di ricerca è certo della sua affidabilità.

Come viene determinato un seed site?

Semplificando al massimo, in parte c’è un algoritmo, in parte alcuni esseri umani, denominati “Oracoli”: questi esaminano un certo numero di siti (o, meglio, le singole pagine dei siti), e decidono se sono buoni o se non lo sono.

Una volta che è stato determinato un piccolo gruppo di seed site, entra in gioco l’algoritmo, secondo questa logica: un sito di ottima qualità non linkerà (quasi) mai un sito spammoso, mentre è più probabile che un sito spammoso linki altri siti di pessima qualità.

Partendo da queste basi, si determinano i siti buoni e quelli cattivi, secondo un criterio di “vicinanza”: se linko siti di ottima qualità mi avvicinerò a loro, e la stessa cosa succede (in negativo) se linko siti di pessima qualità. “Dimmi chi linki, e ti dirò chi sei”, insomma.

Per esteso, succede anche il contrario: meglio quindi cercare di ottenere link da siti buoni, ed evitare di essere linkati da siti spammosi (nel caso, ricordo che è sempre possibile “rinnegare” i link verso il nostro sito grazie al Disavow Links Tool).

Tutti questi temi fanno capo al concetto di TrustRank, attorno al quale la comunità SEO discute dal lontano 2007 (se non prima).

Ma Google non può ancora fare a meno dei link…

O perlomeno, non poteva farne a meno fino a poco tempo fa.

Il 19 Febbraio del 2014, chiesero a Matt Cutts se esisteva o meno una versione di Google che NON utilizza i backlink per determinare la rilevanza.



Cutts rispose che non c’è una versione pubblica di Google che funziona con questo criterio, ma sono stati fatti degli esperimenti interni, e la qualità dei risultati è stata davvero pessima.

Disse insomma che la qualità e la rilevanza dei backlink sono di grande aiuto per filtrare lo spam e permettere a Google di restituire risultati pertinenti all’utente.

Ma in un video di meno di 3 mesi dopo (5 Maggio 2014), la risposta fu un po’ diversa. Chiesero a Matt se i backlink perderanno (in futuro) la loro importanza, e lui rispose così:



“Quello che stiamo cercando di fare è capire come una particolare pagina incontri le esigenze di informazione dell’utente, e a volte i backlink sono utili a tale scopo.

E’ utile scoprire che reputazione ha un sito web o una pagina, ma soprattutto agli utenti importa della qualità dei contenuti della pagina sulla quale sono arrivati. Quindi penso che nel corso del tempo, i backlink diventeranno sempre meno importanti.

Una delle aree più importanti nella quale stiamo investendo nei mesi a venire, è cercare di comprendere la “ricerca conversazionale” […] Per fare ciò dobbiamo comprendere meglio il linguaggio naturale. Quindi penso che dobbiamo comprendere meglio chi scrive, cosa scrive e il significato reale del contenuto, e inevitabilmente, nel corso del tempo, ci sarà un po’ meno enfasi sui link. Ma mi aspetto che nei prossimi anni continueremo comunque ad utilizzare i link per valutare la reputazione di base delle pagine e dei siti web”.

Conclusione

Come scrissi a Maggio 2014 a seguito del video di Cutts, penso che Google tiene e terrà conto di molteplici fattori per continuare a fornire risultati rilevanti e di qualità: fra quelli emergenti c’è e ci sarà tutto ciò che ruota attorno ad Hummingbird, alla semantica, alla comprensione del linguaggio.

Forse ha il suo peso anche l’autorevolezza dell’autore del contenuto (nonostante l’authorship sia stata data per morta da tempo): ricordo che dal Panda (Febbraio 2011) in poi, Google ha posto parecchia enfasi sulla qualità dei contenuti, sulla loro veridicità, e su chi li produce.

Infine, se e quando Twitter tornerà nelle SERP di Google, potrà esserci una riconsiderazione globale del peso dei cosiddetti “fattori sociali” (uno dei temi più dibattuti di sempre).

Ma in mezzo a questo vortice di fattori, i vecchi link sono ancora vivi e vegeti: credo ci vorrà ancora del tempo prima che vengano messi da parte dai “fatti”…

4 Comments

  1. Marco Gurnari 5 marzo 2015
  2. Luciano Garagna 5 marzo 2015
  3. alessandro gnola 15 marzo 2015
  4. Eugenio Tommasi 19 marzo 2015

Leave a Reply