E’ passata ormai qualche settimana, ma solo ora ho ricavato un po’ di tempo per buttare giù due righe a riguardo e desideravo condividerle con voi. In occasione della creazione di un nuovo blog su wordpress.com ho avuto modo di osservare i tempi di indicizzazione e gli aggiornamenti della copia cache. Il blog è stato creato il Giovedì 14 Giugno e non ha mai, penso, ricevuto un backlink da nessun sito (nemmeno una fantomatica pagina di wordpress.com con i link agli “ultimi blog creati”) se non da un mio post che sapevo sarebbe stato preso nell’indice la notte successiva. Chiaramente, da spavaldo, già il 15 Giugno sono andato a verificare un’eventuale presenza nell’indice di Google (ho utilizzato anche lo strumento della Google Dance per verificare su più datacenter contemporaneamente), ottenendo risposta negativa. Purtroppo il 16 e 17 Giugno non ho avuto modo di verificare l’eventuale indicizzazione del blog poiché non ho internet a casa, ma il Lunedì successivo, il 18 Giugno, da lavoro, ho constatato che il blog era stato inserito nell’indice. A dir la verità ho la netta sensazione che il blog fosse nell’indice già Domenica 17 Giugno, in ogni caso non ho modo di provarlo. Da qui due brevi considerazioni:

  • la velocità di indicizzazione di nuovi contenuti che credo si stia abbassando man mano che Google si evolve (ho letto della volontà di arrivare ad un punto di “index real time”, cioè indicizzazione in tempo reale);
  • il fatto che è bastato solo un link, inserito nel posto giusto, per far indicizzare un nuovo documento in circa 72 ore.

Devo essere sincero, non so quanto possa incidere il fatto che il tutto è avvenuto verso la fine della settimana, arco di tempo durante il quale, da quello che so, Google fa un rapido aggiornamento dei datacenter. Osservando invece la copia cache, ho fatto un paio di riflessioni interessanti, che magari suonano già note ai più ma che, ai miei occhi, sono sembrate stimolanti. Come ho scritto sopra ho avuto modo di verificare che il 15 Giugno il sito non era presente nell’indice di Google ma che vi fosse entrato solamente il 18 (anche se ho l’impressione che l’ingresso sia avvenuto il 17). Ma il 18 stesso sono andato a guardarmi pure la copia cache e la relativa data ad essa associata: 15 Giugno! Significa che uno spider si è occupato di far visita al sito e di scaricarsi la copia cache e che un altro spider si è occupato di inserire il blog nell’indice, altrimenti non si spiega come mai, di fatto, il blog avesse già una copia cache nonostante non fosse ancora presente nell’indice. Questo un po’ evolve la mia definizione della copia cache, o meglio, rimette in discussione l’ordine temporale delle varie fasi di indicizzazione ed aggiornamento della copia cache: poiché, molto probabilmente, sono due spider diversi, è difficile definire una qualche sorta di propedeuticità tra una fase e l’altra, avvengono indipendentemente l’una dall’altra, anche quando il documento non è ancora stato inserito nell’indice. Quindi, alla consapevolezza della presenza di diversi tipi di spider con diverse mansioni, questa osservazione mi ha dato modo di confermare che vi sono anche due spider diversi che si occupano della copia cache e dell’indicizzazione. Tra l’altro, mentre scrivo, mi ritornano in mente quelle osservazioni durante le quali mi ero annotato che l’ultimo post di questo blog era stato indicizzato, ma la copia cache della index (dove chiaramente il post era presente) era in realtà priva del post in oggetto, in sostanza, era in ritardo di qualche giorno. Quindi c’è uno spider che si occupa di verificare gli aggiornamenti di documenti già esistenti ed uno che si occupa di verificare la presenza di documenti non ancora inseriti nell’indice e, a sua volta, inserirli, anche se non escludo il fatto che sia un terzo spider che si occupa di aggiornare l’indice della presenza di nuovi documenti. Poi, relativamente ai tempi di indicizzazione e copia cache, credo che servano maggiori osservazioni ma mi sento di confermare quanto letto nei vari blog: i tempi di indicizzazione di nuovi documenti si stanno abbassando sempre più! Ad ogni modo ho un paio di domini freschi freschi per osservare di nuovo queste tipologie di tempistiche. Autore: Marco Ziero (per TagliaBlog).