Vorrei fare questa discussione sui file "robots.txt" ovvero un file (facoltativo) da mettere nello spazio di hosting del proprio sito web, molto utile per fornire istruzioni al crawler del motore di ricerca ovvero dire agli algoritmi di Google, Bing ecc se una pagina deve essere indicizzata (presente nei risultati di ricerca) oppure no (ad esempio la pagina "carrello", pannello di amministrazione, login, le pagine profilo degli iscritti ad un forum... Quindi non necessariamente tutte le pagine ha senso che vengano mostrate, indicizzate, non esistono solo pagine prodotto o articoli informativi!). Esistono anche altre strade, ma il robots.txt è molto usato e nel complesso una soluzione valida.
Robots.txt: guida ufficiale di Google
Fatta questa premessa, è bene precisare che il file robots.txt è un file tecnico, dev'essere semplice e funzionale, del tipo campo=valore, e basta. Spesso ha la forma seguente:
User-agent: *
Disallow:
Capita però che alcuni siti web amatoriali o quasi, abbiano un file robots.txt con istruzioni più complesse rispetto a quello di Google con tutti i suoi servizi (che trovate qui). Quindi è chiaro che in questo caso c'è qualcosa che non va... Detto ciò, ho deciso di fare una serie di interessanti ricerche che non ho mai visto fare!
Proviamo ad esempio a fare questa ricerca su Google: inurl="robots" filetype:txt
Ovvero cerca i file che contengono nell'URL "robots" (analogamente potevamo mettere intitle="robots") e con estensione .txt, grazie al comando filetype. Vengono mostrati una serie di risultati, nelle prime posizioni ci sono i file robots.txt di siti importanti come IMB, Apple, Google, ecc. La cosa carina è che possiamo fare di più: keyword inurl="robots" filetype:txt
Al posto di "keyword" mettiamo ad esempio "ciao". Nel mondo esistono sono siti web che nel robots.txt hanno scritto "ciao" (magari come commento) e il robots.txt è indicizzato su Google. Un esempio è questo, che scrive "ciao" e anche "goodbye". Altri siti invece scrivono come commento la storia, vita morte e miracoli della loro azienda oppure cos'è e come funziona il file robots.txt (anche ad esempio usa.gov non scherza in questo senso).
Tutto questo per ribadire l'importanza di questo file, un elemento di SEO tecnica, che dev'essere funzionale, chiaro e pulito. Un altro errore che si vede spesso fare è, nel caso ad esempio si voglia escludere dall'indicizzazione una cartella, anziché mettere il percorso della cartella si vanno ad escludere i singoli file, aggiungendo un'enormità di righe di codice del tutto non necessarie! Oppure istruzioni contrastanti, come ad esempio escludere una cartella ma voler includere una singola sottocartella di questa e non sempre i risultati vanno nel modo previsto...
Ricordare questo: se il vostro sito amatoriale presenta un robots.txt più complesso e dettagliato di quello di Google, con tutti i suoi servizi, ecco, forse avete sbagliato qualcosa! 😅
Approfondimento: guida completa al robots.txt