Spider, indicizzazione e copia cache

E’ passata ormai qualche settimana, ma solo ora ho ricavato un po’ di tempo per buttare giù due righe a riguardo e desideravo condividerle con voi.
In occasione della creazione di un nuovo blog su wordpress.com ho avuto modo di osservare i tempi di indicizzazione e gli aggiornamenti della copia cache.
Il blog è stato creato il Giovedì 14 Giugno e non ha mai, penso, ricevuto un backlink da nessun sito (nemmeno una fantomatica pagina di wordpress.com con i link agli “ultimi blog creati”) se non da un mio post che sapevo sarebbe stato preso nell’indice la notte successiva.
Chiaramente, da spavaldo, già il 15 Giugno sono andato a verificare un’eventuale presenza nell’indice di Google (ho utilizzato anche lo strumento della Google Dance per verificare su più datacenter contemporaneamente), ottenendo risposta negativa.
Purtroppo il 16 e 17 Giugno non ho avuto modo di verificare l’eventuale indicizzazione del blog poiché non ho internet a casa, ma il Lunedì successivo, il 18 Giugno, da lavoro, ho constatato che il blog era stato inserito nell’indice.
A dir la verità ho la netta sensazione che il blog fosse nell’indice già Domenica 17 Giugno, in ogni caso non ho modo di provarlo.
Da qui due brevi considerazioni:

  • la velocità di indicizzazione di nuovi contenuti che credo si stia abbassando man mano che Google si evolve (ho letto della volontà di arrivare ad un punto di “index real time”, cioè indicizzazione in tempo reale);
  • il fatto che è bastato solo un link, inserito nel posto giusto, per far indicizzare un nuovo documento in circa 72 ore.

Devo essere sincero, non so quanto possa incidere il fatto che il tutto è avvenuto verso la fine della settimana, arco di tempo durante il quale, da quello che so, Google fa un rapido aggiornamento dei datacenter.
Osservando invece la copia cache, ho fatto un paio di riflessioni interessanti, che magari suonano già note ai più ma che, ai miei occhi, sono sembrate stimolanti.
Come ho scritto sopra ho avuto modo di verificare che il 15 Giugno il sito non era presente nell’indice di Google ma che vi fosse entrato solamente il 18 (anche se ho l’impressione che l’ingresso sia avvenuto il 17). Ma il 18 stesso sono andato a guardarmi pure la copia cache e la relativa data ad essa associata: 15 Giugno!
Significa che uno spider si è occupato di far visita al sito e di scaricarsi la copia cache e che un altro spider si è occupato di inserire il blog nell’indice, altrimenti non si spiega come mai, di fatto, il blog avesse già una copia cache nonostante non fosse ancora presente nell’indice.
Questo un po’ evolve la mia definizione della copia cache, o meglio, rimette in discussione l’ordine temporale delle varie fasi di indicizzazione ed aggiornamento della copia cache: poiché, molto probabilmente, sono due spider diversi, è difficile definire una qualche sorta di propedeuticità tra una fase e l’altra, avvengono indipendentemente l’una dall’altra, anche quando il documento non è ancora stato inserito nell’indice.
Quindi, alla consapevolezza della presenza di diversi tipi di spider con diverse mansioni, questa osservazione mi ha dato modo di confermare che vi sono anche due spider diversi che si occupano della copia cache e dell’indicizzazione.
Tra l’altro, mentre scrivo, mi ritornano in mente quelle osservazioni durante le quali mi ero annotato che l’ultimo post di questo blog era stato indicizzato, ma la copia cache della index (dove chiaramente il post era presente) era in realtà priva del post in oggetto, in sostanza, era in ritardo di qualche giorno.
Quindi c’è uno spider che si occupa di verificare gli aggiornamenti di documenti già esistenti ed uno che si occupa di verificare la presenza di documenti non ancora inseriti nell’indice e, a sua volta, inserirli, anche se non escludo il fatto che sia un terzo spider che si occupa di aggiornare l’indice della presenza di nuovi documenti.
Poi, relativamente ai tempi di indicizzazione e copia cache, credo che servano maggiori osservazioni ma mi sento di confermare quanto letto nei vari blog: i tempi di indicizzazione di nuovi documenti si stanno abbassando sempre più!
Ad ogni modo ho un paio di domini freschi freschi per osservare di nuovo queste tipologie di tempistiche.
Autore: Marco Ziero (per TagliaBlog).

Condividi su facebook
Facebook
Condividi su google
Google+
Condividi su twitter
Twitter
Condividi su linkedin
LinkedIn
Condividi su pinterest
Pinterest

4 Comments

  • Marco,
    ho aperto un sito il 7 Luglio e prima di allora digitando il classico site:nomesito.it vedevo solo la pagina che recitava un tristissimo dominio registrato anche se stavo lavorando online ai contenuti !
    Ma nello stesso giorno in cui ne ho annunciato l’apertura sul mio blog (il 7 Luglio appunto) il risultato della query di cui sopra mi mostrava le pagine del sito ! Non sono espertissimo di spider ma il sospetto che sia bastato un link su blogspot per avviare il processo mi è venuto. Che ne pensi ?

  • ciao marco,
    certo, per avviare il processo, come minimo basta un link da una risorsa già presente nell’indice, poi, relativamente ai tempi, bisognerebbe investigare più a fondo. 🙂
    non escludo, comunque, che un po’ di suo ce l’abbia messo la google toolbar che hai installato sul browser (ce l’hai, vero?) 😉

    ciao!

  • Marco, grazie per la risposta ! La toolbar ce l’ho ma non capisco cosa vuoi dire…
    Mi spieghi ? 🙂

  • ciao marco,
    che quando inserivi contenuti nel tuo blog, dal browser, digitavi http://www…. e la toolbar è in grado di monitorare questo tuo comportamento.
    io credo che se il numero di interrogazioni via broswer sia notevole, google percepisce l’accesso ad una risorsa non ancora nell’indice e la indicizza.
    IMHO
    🙂

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Max Valle

Max Valle

Da oltre 20 anni, fornisco consulenze per aziende e professionisti, che vogliono sviluppare il loro business, 
aumentando i clienti, utilizzando le ultime tecnologie e nel pieno rispetto delle normative vigenti in materia.

Seguimi sui social

Iscriviti alla Newsletter

Main sponsor

Scroll to Top

Utilizziamo i cookie per personalizzare contenuti ed annunci, per fornire funzionalità dei social media e per analizzare il nostro traffico. Condividiamo inoltre informazioni sul modo in cui utilizza il nostro sito con i nostri partner che si occupano di analisi dei dati web, pubblicità e social media, i quali potrebbero combinarle con altre informazioni che ha fornito loro o che hanno raccolto dal suo utilizzo dei loro servizi. Acconsenta ai nostri cookie se continua ad utilizzare il nostro sito web. Per maggiori informazioni visualizza la Privacy & Cookie policy