Google stessa ha appena dichiarato che il proprio crawler, Googlebot, scansiona e quindi indicizza solo i primi 15 MB di una pagina web (HTML, PDF o qualunque essa sia).
Un aspetto molto interessante, effettivamente confermato anche da me, tramite qualche esperimento.
Conosciamo l'importanza del crawl budget ovvero vista l'infinità di risorse e materiale nel web, l'algoritmo di Google deve decidere come e quando possa avere senso passare a visitare un sito web (trovare eventuali nuove pagine da scansionare e aggiungere al proprio indice, oppure aggiornare le pagine esistenti): le sue risorse non sono infinite quindi per evitarne lo spreco, nasce appunto il concetto di crawl budget.
Realisticamente, 15 MB per una pagina sono moltissimi! Può avere senso ad esempio per un PDF, da qui l'importanza fondamentale dell'ottimizzazione (abbiamo già parlato dell'ottimizzazione delle immagini, discorso analogo anche per un PDF): ridurre le dimensioni significa benefici per l'algoritmo di Google che quindi tende a premiarci, benefici ovviamente per l'utente che consuma meno dati/connessione e la pagina si carica più velocemente, benefici anche per il server stesso che ovviamente si trova a caricare quindi meno risorse.
Infatti:
In general, you probably want to keep your pages pretty light for both users and search engine crawlers. But here Google is being very clear about how much Googlebot will consume from your page.
Limite dei 15 MB: cosa significa? Un esempio pratico
Supponiamo che il sito web abbia un documento PDF, piuttosto pesante, che supera quindi la dimensione di 15 MB. Questo PDF contiene del testo (ad esempio,un catalogo/listino prodotti). Se la pagina è indicizzata/posizionata su Google, facendo una ricerca (magari abbastanza specifica sui termini) può comparire ilnostro risultato. Questo se i termini di ricerca rientrano nei primi 15 MB del documento! Altrimenti, se i termini sono contenuti oltre questa dimensione, non c'è modo di trovare la corrispondenza poiché l'algoritmo di Google, per non sprecare risorse, non ha letto la parte eccedente.
Tutto questo per quanto riguarda Google. Sarà interessante studiare il comportamento degli altri motori di ricerca (Bing/Yahoo, DuckDuckGo, ecc) per vedere quali siano i loro limiti a riguardo.
Approfondimento:
searchengineland.com