WDF*IDF: un’analisi per il posizionamento dei risultati organici

Condividi su facebook
Facebook
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su whatsapp
WhatsApp
Condividi su telegram
Telegram

Dopo che Karl Kratz, una voce di merito nel coro degli esperti di posizionamento in Germania, ha resuscitato un modello matematico di Information Retrieval degli anni Settanta incredibilmente vicino a quello che Google potrebbe applicare per il ranking, sulla scena SEO tedesca si è scatenata una certa dose di panico.

Parametri fino ad allora sicuri e afferrabili anche da chi non ha una laurea in matematica, come la keyword density in percentuale sul testo, sono spariti per lasciare spazio a minacciosi logaritmi: il modello WDF*IDF.

Come funziona? Ve lo spieghiamo in questo post.

Analisi WDF*IDF: un modello di classificazione dei documenti in base alle parole che contengono.

L’analisi WDF*IDF è una teoria matematica che permette di catalogare dei documenti in ordine di rilevanza rispetto ad un termine-chiave in esso contenuto. Una sorta di teoria del ranking dei portali in base alle keywords che contengono, pubblicata nell’era dell’offline, quando gli ideatori di Google erano ancora in fasce.

Indipendentemente dal fatto che questa teoria abbia o meno ispirato Google, sicuramente ci si avvicina più delle speculazioni di molti. Nasce il desiderio di sfruttare questo modello per ottenere informazioni sui contenuti dei primi risultati di ricerca per utilizzarli nei propri portali.

Il modello WDF*IDF si basa su due informazioni fondamentali:

WDF (Within Document Frequency) rispecchia la frequenza di utilizzo di una certa parola all’interno di un documento (o, per l’uso che ne vogliamo fare, in una pagina web) rispetto al numero totale di parole presenti. Possiamo pensarla come una keyword density, ma estratta con un calcolo più complesso;
IDF (Inverse Document Frequency) misura la pertinenza di una parola nel documento (pagina web) in cui è riportata rispetto ad un gruppo di documenti (altre pagine web) che riportano la stessa parola.

Il suo ideatore principale è il professore tedesco Gerald Salton, che inizia a parlarne per la prima volta con un modello di analisi vettoriale dello spazio (Vector Space Model) all’inizio degli anni Settanta.

La teoria si basa sulla possibilità di poter rappresentare ogni documento di testo esistente tramite vettori in uno spazio ad n dimensioni. Ogni parola di senso compiuto all’interno del documento viene presa in considerazione per la creazione del vettore che descrive il documento: restano esclusi i termini stopwords, come le preposizioni, etc. A seconda di quale sia la parola centrale che si prende in considerazione di volta in volta (il nostro “termine di ricerca”), lo scalare di ciascun vettore rappresenta il peso della parola per il documento in questione.

Altri vettori generati sulla base di altri documenti che indicano la stessa direzione (o una direzione molto simile) per quella parola sono verosimilmente simili al documento originale. È così possibile riordinarli e catalogarli in ordine di rilevanza rispetto alla parola. Detto in termini moderni, le pagine web con caratteristiche che risultino affini applicando questo modello sono probabilmente da posizionare per prime nei risultati per quella keyword: un vero e proprio ranking sulla base della keyword per quanto riguarda il puro contenuto testuale della pagina.

La novità rispetto alla semplice densità di keywords è che questo modello vettoriale mette in evidenza l’importanza della parola nel contesto, non semplicemente la sua ripetizione. Ecco svelato cosa si intende per “contenuti di qualità” e come probabilmente Google riesce a vederne la differenza.

È possibile sfruttare l’analisi WDF*IDF per scandagliare la SERP ed ottenere informazioni utili a definire i criteri per posizionare il mio portale? Sì, e non c’è bisogno di una laurea cum laude in matematica teorica per farlo.

Analisi semantica CRR: un tool SEO che suggerisce le keywords sulla base dei risultati organici di Google.

La versione moderna dell’analisi WDF*IDF si chiama analisi CRR (Content Relevance Rank) ed è un tool SEO sviluppato dal content marketplace (scrittura testi per il web) leader in Germania, greatcontent.

Qui si propone il percorso inverso: da documenti già classificati per una certa parola, ovvero a partire dai primi 10 risultati organici in tempo reale per una certa keyword, lo strumento suggerisce le keywords secondarie (analisi semantica) e la loro importanza nel testo da creare tramite un criterio semplice da applicare: una keyword density ideale.

Oggi lo testiamo per voi sul TagliaBlog.

Test: analisi CRR per “stampanti laser”.

Dopo aver fatto il login sul nostro account greatcontent, alla voce “progetti” possiamo accedere al pannello di analisi CRR. L’interfaccia ricapitola le funzionalità dello strumento e ci chiede di inserire due informazioni:

1. Termine principale (keyword);
2. Dominio del motore di ricerca.

Al momento lo strumento propone Google in tutti i suoi domini come parametro di Search Engine. Noi scriviamo “stampanti laser”, selezioniamo “Google.it” e clicchiamo su “Avvia analisi”. Costa 1 euro.

Mentre aspettiamo 2-5 minuti per il risultato dell’analisi, andiamo su google.it con la nostra keyword per vedere cosa succede. Oltre ai numerosi risultati pay, ecco i primi 10 risultati. Torniamo all’analisi CRR, che nel frattempo è completata.

Analisi CRR

L’interfaccia ci ha restituito un grafico interattivo che mostra una serie scalabile di termini e la loro presenza (media e massima) nella totalità dei risultati di ricerca ottenuti. Possiamo restringere la visuale ad una lista più o meno lunga di parole (di default sono ca. 20) ed escludere a piacimento la CRR media o massima.

Passiamo al secondo livello di analisi.

In un nuovo grafico interattivo vediamo su quali portali e quanto spesso compaiono le keywords trovate: i 10 primi risultati organici di Google sono riordinati più sotto con colori diversi da ritrovare nel grafico.

Secondo livello di analisi CRR

Un secondo box li elenca con indicazione del conteggio delle parole su ciascuna pagina, per darci un’idea della quantità del contenuto da proporre (e produrre).

Tornando alla prima pagina dell’analisi e scorrendo a fondo pagina, possiamo selezionare fino a 5 keywords secondarie che vogliamo includere nel nostro nuovo testo. Lo strumento ci rimanda direttamente al modulo di richiesta di testo (dopotutto siamo su un content marketplace) che ha già incluso le keywords selezionate e la loro densità percentuale ideale.

Links utili:

– Analisi CRR spiegata in italiano da Francesca Zadra per greatcontent.it (in italiano): http://blog.greatcontent.it/2013/10/ricerca-keywords-nuovo-tool-analisi-semantica-crr-content-relevance-ranking-wdf-idf/
– Paper: “A Vector Space Model dor Automatic Indexing”, G. Salton, A. Wong and C.S. Yang, Cornell University: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf
– Analisi WDF*IDF spiegata in 3 puntate da Dr. Arne-Christian Sigge di content.de (in tedesco): http://blog.content.de/2013/03/27/wdf-idf-analysen-loesen-die-keywortdichte-ab/

Autore: Francesca Zadra, per il TagliaBlog.

Autore
Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, in modo serio e produttivo, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.
×
Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, in modo serio e produttivo, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.
Latest Posts
  • Google Ranking
  • Google search
  • Sviluppo App
  • Google shopping

12 Comments

  • Ciao Alex, bisogna avere un account cliente, ma può essere per persona privata senza partita IVA. Ti avevo già risposto dall’altro blog, giusto? 🙂

    Reply
  • Francesca ma bisogna registrarsi come azienda e mettere una partita iVA? Come autore di testi non mi permette di farlo

    Reply
  • Ciao Philipp,

    non capisco il tono della risposta, poco pertinente e poco professionale, ma al di là di questo la formula WDF*IDF è degli anni Settanta.

    Il responsabile tecnico della nostra casa-madre tedesca ha svolto la tesi di dottorato su questa tematica. Ci sono sicuramente centinaia di altre ricerche sul tema WDF*IDF come altre teorie di ranking. Tutti i documenti e le ricerche a riguardo sono pubbliche. Tutti gli strumenti che si basano su queste ricerche dovrebbero giustamente avere risultati simili 🙂 In caso contrario, Houston, abbiamo un problema!

    Non conoscevo il sito che sponsorizzi così appassionatamente, mentre conoscevo onpage e ancora meglio Searchmetrics. Da quel che vedo comunque non sono la stessa cosa, ovvero nel link che hai messo si chiede di inserire del testo, non una keyword, nè di scegliere motore di ricerca…? Ripeto, tutti questo strumenti (in qualsiasi lingua siano) si basano su studi pubblici degli anni Settanta. Come spiego nell’incipit del post (per chi l’ha letto), buona parte della scena SEO tedesca l’ha recentemente riscoperto per ottimizzare i testi.

    Non c’è un “primo” e un “bravo”, è un modello vettoriale. Ci sono i papers.

    Se vuoi scoprirne di più, oltre ai links che trovi in fondo al blog, ecco un riassunto-trilogia in tedesco firmato proprio dal nostro dott. Arne Sigge: http://blog.content.de/category/wdfidf-2/

    Come al solito, ho scritto troppo: l’arte della sintesi è per pochi eletti.
    Buona giornata!

    Reply
  • Ciao a tutti,

    vorrei informarvi che già esiste uno strumento speciale che si basa sulla formula WDF * IDF – anzi: SEOlyze.com (www.seolyze.com)

    http://www.greatcontent.it non è l’originale. La verità è che http://www.greatcontent.it è stato ispirato dalle buone analisi e la presentazione di SEOlyze.com. Se siete interessati nello strumento originale che si basa sulla formula WDF * IDF, ho generato un accesso esterno: https://www.seolyze.com/AnalyseExtern/dHADjJkOlgSxo9t/ (la versione inglese è regolabile in alto a destra).

    Si può vedere che l’analisi sono stranamente simili ed i risultati s’ assomigliano molto. Allora, chi è alla ricerca di un vero e proprio strumento speciale, è cordialmente invitato a testare http://www.seolyze.com.

    È anche possibile contattarci direttamente: kontakt@seolyze.com

    Cordiali saluti,
    Philipp Helminger

    Reply
  • A breve vi posto il mio servizio online gratuito così lo usate tutti. Diciamo che c’era qualche improve da fare rispetto al tool menzionato. Attendete 😀

    Reply
  • @Alessandro: esiste una versione ITA (o anche ENG) del tool onpage.org?

    Reply
  • Ma perchè spendere altri soldi quando si può benissimo farlo da sé conoscendo gli algoritmi? :S

    Reply
  • Noi usiamo il tool di Markus Tandler onpage.org … In questo tool l’analisi WDF*IDF è implementata gia da tempo.
    E devo dire che implementando la formula nei nostri testi , i ranking sono migliorati.

    Reply
  • Ottimo. Mi metto a fare un equivalente di entrambi gli algoritmi in java e vediamo cosa ne esce. Altro che 1 euro a ricerca 😀

    Reply
  • 1€ a ricerca… per quanto sono curioso potrei diventare povero in 10 minuti 🙂
    Davvero interessante approfondirò il discorso!
    Grazie Taglia bell’articolo!

    Reply

Rispondi

Max Valle

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Iscriviti alla Newsletter
Main sponsor

Sponsor

Scroll to Top

Vuoi capire perchè il tuo sito non traffica?

REPORT SEO GRATUITO
ancora per i prossimi

Giorni
Ore
Minuti
Secondi
anzichè 399€+iva