Senza entrare troppo nella teoria (chi è qui probabilmente già conosce il concetto di "crawl budget" o comunque è in grado di andare ad approfondirlo in altra sede), riportiamo solo la semplice definizione per poi vedere un esempio pratico, caso di studio interessante.
Crawler e crawl budget: in sintesi
Il crawler (o spider) è un software, algoritmo del motore di ricerca (Google, Bing, ecc, ognuno ha il proprio) che "passa a visitare" i vari siti web aggiunti al proprio indice, con tutte le varie pagine; ogni visita verifica se ci sono aggiornamenti, nuovo contenuto, ecc. Tutto ciò comporta una spesa di energia, che il crawler non vuole sprecare (infatti ha senso spendere energie per "siti importanti, interessanti", nell'ottica di migliorare il servizio offerto dal motore di ricerca). A giugno 2022 Google stessa dichiara che Googlebot scansiona solo i primi 15 MB di un contenuto appunto per evitare uno spreco di risorse.
Nasce quindi il concetto di crawl budget: sulla base di un insieme di parametri (velocità/pesantezza del nostro sito, stima di quella che è la qualità dei contenuti, frequenza di aggiornamento ecc), l'algoritmo assegna un determinato valore di crawl budget al nostro sito web. Concettualmente è così, esistono poi diverse tecniche di ottimizzazione (struttura e architettura del sito, qualità dei contenuti anche in ottica SEO, ecc) per cercare di migliorare il crawl budget.
Di solito, di solito, siti web più autorevoli hanno maggior crawl budget, questo è un notevole vantaggio perché ogni aggiornamento viene presto rilevato, inoltre anche ogni invio manuale di URL tramite Google Search Console viene preso in considerazione in breve tempo (URL indicizzata e quindi possibilità di posizionamento). Questo di solito. Sempre di solito, siti web "piccolini", appena nati, la vedono grigia, Google non li prende molto in considerazione dato che è improbabile che siano delle stelle nascenti di qualità. Il caso pratico che andiamo a studiare, però mostra ben altro...
Caso pratico: crawl budget gestito alla perfezione, in un progetto appena nato
Ebbene, senza girarci intorno, il caso pratico riguarda proprio questo sito! Per tutta una serie di ragioni, "best practices" che poi vediamo, anche se questo sito è nato da poco, una nuova URL inviata alla Search Console di Google (analogamente lo strumento di Bing Webmaster) viene indicizzata in poco tempo; le ultime discussioni, anche nel giro di un'oretta! Incredibile per un sito web con Domain Authority prossima allo zero e idem il numero di backlink (ricordiamo, è appena nato), ancora più incredibile se consideriamo che siti web "normali" possono impiegare giorni, settimane o talvolta anche mesi prima che Google decida di aggiungere all'indice una pagina inviata (alcune le aggiunge in tempi ragionevoli, altre "restano il attesa" per un tempo indefinito).
Questa non è magia, è solo strategia! Vediamo quindi cosa ha permesso a questo forum appena nato, di ottenere una così grande considerazione da parte di Google, Bing e i motori di ricerca in generale.
Come migliorare il proprio crawl budget
- qualità delle discussioni: quando si dice "qualità vs quantità", ebbene, ogni singola discussione ha un titolo fatto come si deve e non ad esempio "aiutooo entrate", poi segue la descrizione della discussione, ricca e dettagliata, spesso con link a fonti autorevoli, approfondimenti e immagini inerenti al tema. Il massimo della qualità insomma, questo è l'aspetto più importante
- ottimizzazione performance: nell'epoca in cui va di moda aggiungere ogni stupidata di plugin possibile e immaginabile (della serie, se non serve fa lo stesso), puntiamo invece all'essenzialità e pulizia, ordine, riprendendo il concetto precedente "qualità vs quantità"; anche in termini di User Experience e crawl budget, indubbiamente aiuta
- SEO: gestire la piattaforma con una buona conoscenza SEO come base, è molto importante: dall'uso corretto e adeguato di strumenti come Google Search Console, Sitemap, all'attenzione alla qualità e struttura-architettura del sito, categorie e singole discussioni, tutte ottimizzazioni che portano a buoni risultati
In definitiva, anche un piccolo sito web appena nato può puntare all'eccellenza e raggiungerla, ben prima di concorrenti potenzialmente in vantaggio (se hai una Ferrari e non sai guidare, perdi la gara contro una Fiat Panda). Il nostro esempio lo dimostra chiaramente. L'aspetto principale è l'attenzione alla qualità dei contenuti, sia lato User Experience (un effettivo contenuto di valore) sia in ottica SEO, in particolare molta importanza al titolo: il crawler prima di aprire una pagina, spendendo energie, risorse, legge il titolo: se noi leggiamo il titolo di un libro, se questo titolo ci sembra scadente e di bassa qualità, pensiamo forse di aprire il libro e iniziare a leggerlo? No. Questo vale anche per il crawler.
Per avere una migliore idea del concetto di crawl budget, andare in Google Search Console, impostazioni, statistiche di scansione (apri rapporto) e, oltre a varie voci, compaiono le "richieste scansioni totali". Confrontiamo questo numero con le nostre pagine indicizzate che consiglio di vedere sempre tramite GSC e non con l'opeatore site:dominio
(quindi andare in: Google Search Console, pagine). Se ad esempio negli ultimi 90 giorni il crawler è passato 2000 volte sul nostro sito (2000/90 = 22,2) e le pagine indicizzate sono 200, significa che in media occorre attendere 200/22,2 = 9 giorni affinché il crawler ritorni nuovamente su ogni nostra pagina. Questi sono solo dati di esempio ed è anche un discorso medio! Vale a dire che la Homepage viene vista come "più importante" e scansionata più di frequente, pagine di articoli che vengono aggiornati spesso, possono essere scansionati più di frequente dato che "potrebbe esserci un nuovo aggiornamento"; se invece una pagina non è aggiornata da molto tempo, anche il crawler capisce che ha poco senso andare a visitarla di continuo (spendendo risorse) dato che probabilmente è rimasta uguale. È importante quindi capire questo concetto.
Approfondimenti:
seozoom.it
ahrefs.com
searchenginejournal.com