Robots.txt creativi

Giulio_M

Vorrei fare questa discussione sui file "robots.txt" ovvero un file (facoltativo) da mettere nello spazio di hosting del proprio sito web, molto utile per fornire istruzioni al crawler del motore di ricerca ovvero dire agli algoritmi di Google, Bing ecc se una pagina deve essere indicizzata (presente nei risultati di ricerca) oppure no (ad esempio la pagina "carrello", pannello di amministrazione, login, le pagine profilo degli iscritti ad un forum... Quindi non necessariamente tutte le pagine ha senso che vengano mostrate, indicizzate, non esistono solo pagine prodotto o articoli informativi!). Esistono anche altre strade, ma il robots.txt è molto usato e nel complesso una soluzione valida.

Robots.txt: guida ufficiale di Google

Fatta questa premessa, è bene precisare che il file robots.txt è un file tecnico, dev'essere semplice e funzionale, del tipo campo=valore, e basta. Spesso ha la forma seguente:

User-agent: *
Disallow:

Capita però che alcuni siti web amatoriali o quasi, abbiano un file robots.txt con istruzioni più complesse rispetto a quello di Google con tutti i suoi servizi (che trovate qui). Quindi è chiaro che in questo caso c'è qualcosa che non va... Detto ciò, ho deciso di fare una serie di interessanti ricerche che non ho mai visto fare!

Proviamo ad esempio a fare questa ricerca su Google: inurl="robots" filetype:txt

Ovvero cerca i file che contengono nell'URL "robots" (analogamente potevamo mettere intitle="robots") e con estensione .txt, grazie al comando filetype. Vengono mostrati una serie di risultati, nelle prime posizioni ci sono i file robots.txt di siti importanti come IMB, Apple, Google, ecc. La cosa carina è che possiamo fare di più: keyword inurl="robots" filetype:txt

Al posto di "keyword" mettiamo ad esempio "ciao". Nel mondo esistono sono siti web che nel robots.txt hanno scritto "ciao" (magari come commento) e il robots.txt è indicizzato su Google. Un esempio è questo, che scrive "ciao" e anche "goodbye". Altri siti invece scrivono come commento la storia, vita morte e miracoli della loro azienda oppure cos'è e come funziona il file robots.txt (anche ad esempio usa.gov non scherza in questo senso).

Tutto questo per ribadire l'importanza di questo file, un elemento di SEO tecnica, che dev'essere funzionale, chiaro e pulito. Un altro errore che si vede spesso fare è, nel caso ad esempio si voglia escludere dall'indicizzazione una cartella, anziché mettere il percorso della cartella si vanno ad escludere i singoli file, aggiungendo un'enormità di righe di codice del tutto non necessarie! Oppure istruzioni contrastanti, come ad esempio escludere una cartella ma voler includere una singola sottocartella di questa e non sempre i risultati vanno nel modo previsto...

Ricordare questo: se il vostro sito amatoriale presenta un robots.txt più complesso e dettagliato di quello di Google, con tutti i suoi servizi, ecco, forse avete sbagliato qualcosa! 😅

Approfondimento: guida completa al robots.txt

Vladimir

Giulio_M Molto interessante ; soprattutto le% sul traffico " non umano " .

Giulio_M

Vladimir certo! I crawler dei vari motori di ricerca (Google, Bing, ecc) scansionano le varie pagine web per aggiungerle al proprio indice e mantenerle aggiornate (pensa al lavoro enorme che devono fare, stare dietro agli aggiornamenti di miliardi di pagine web...). Quindi una parte del traffico ad un sito web, certamente non è umano ma appunto dato da questi bot.

Giulio_M

Aggiungo delle curiosità, file robots.txt "particolari" di aziende importanti:

Nike: commento ASCII-Art con la forma del logo
Seerinteractive: anche qui, commento con la forma del logo
TripAdvisor: la genialata, addirittura un annuncio di lavoro (oltre ad un elenco lunghissimo di istruzioni, forse anche esagerato rispetto alla media)
Yelp: un commento con la citazione delle tre leggi della robotica, di Asimov
Last.fm: ironia, impedisce l'accesso ad "harming humans", chi danneggia gli esseri umani, ignora gli ordini dagli esseri umani e chi danneggia sé stesso
YouTube: un commento ironico, che il file robots.txt è stato creato nel lontano futuro (l'anno 2000) dopo che l'invasione dei robot ha eliminato la razza umana
PageOnePower: una citazione di Star Wars
Reddit: un'istruzione a Bender di Futurama, impedendogli l'accesso a "shining metal ass", la cui traduzione sarebbe un pochino volgare

Riferimenti:
SearchEngineLand

Vladimir

Giulio_M Ah ah ah! molto " buffo " .😅

Fondatori