CorriereNerd.it

llms.txt, la mappa del tesoro per gli LLM: perché il “nuovo robots.txt” non è un robots.txt (e come può cambiare davvero la visibilità dei tuoi contenuti)

C’è un momento, quando navighi tra release notes, changelog e documentazioni infinite, in cui vorresti prendere per mano l’Intelligenza Artificiale e dirle: “Ehi, le risposte che cerchi sono qui, non due cartelle più in là”. Nel 2024 qualcuno ha provato a farlo davvero. Jeremy Howard – nome che i geek di fast.ai conoscono bene – ha proposto llms.txt, un file testuale che ricorda nel nome il celebre robots.txt ma che, nella sostanza, gioca un’altra partita. Se robots.txt parla ai crawler dei motori di ricerca e sitemap.xml elenca “tutto quello che esiste”, llms.txt si rivolge ai modelli linguistici durante l’inference e sussurra: “Queste sono le pagine che vale la pena leggere e citare”. È una curatela, non un divieto; una mappa, non un semaforo.

L’idea nasce da una constatazione che chiunque abbia integrato un LLM in un prodotto conosce sulla propria pelle: i modelli sono bravissimi a masticare enormi quantità di testo, ma quando li lasciamo a spasso per il web finiscono spesso impigliati tra script, banner, layout complessi, footer chilometrici. Gli LLM non “vedono” la pagina come un essere umano: la disassemblano. E se la struttura è confusa, la risposta lo diventa. llms.txt prova a raddrizzare il tiro: un documento in Markdown, posizionato – come convenzione – alla radice del dominio, che presenta in modo pulito il cuore del sito, con un titolo che dichiara chi sei, una breve descrizione che mette i paletti narrativi e una serie di sezioni in cui inserire i collegamenti davvero utili a capire e citare il tuo lavoro.

Immagina un portale di documentazione software. Senza llms.txt, il modello atterra su una pagina a caso, esamina menu, sidebar, componenti interattivi e magari fatica a raggiungere il riferimento API che avrebbe risolto il quesito in un lampo. Con llms.txt lo accompagni tu: prima lo orienti con due righe chiare, poi gli indichi le pagine chiave – la guida rapida, il reference, le policy – e gli spieghi in una frase cosa troverà dietro quel link. In pratica gli stai regalando una bussola semantica. Non è magia, è redazione: meno rumore, più segnale.

Qui arriva il primo malinteso da smontare. Nonostante il nome simile, llms.txt non sostituisce robots.txt e non è un’estensione per bloccare o permettere la lettura di certe pagine. Non ordina, non vieta, non minaccia. È, semmai, un invito. Se robots.txt decide “chi entra e dove può mettere il naso” e sitemap.xml dice “questo è l’inventario completo della casa”, llms.txt fa la parte della guida turistica che ti porta dritto alla sala che ti interessa, saltando sotterranei e ripostigli. È un file opt-in: elenca ciò che vuoi che un LLM consideri prioritario quando deve capire, citare, rispondere.

Naturalmente, come ogni nuova pratica che tocca SEO e AI, divide. C’è chi lo considera una genialata pragmatica e chi lo bolla come il “nuovo meta keywords”. I sostenitori notano che, in un panorama dove le risposte conversazionali di ChatGPT, Claude, Gemini o Perplexity stanno diventando la prima interfaccia con l’utente, offrire una versione curata, lineare e “AI-digestibile” dei propri contenuti riduce fraintendimenti, migliora la qualità delle citazioni e preserva l’identità del brand. I critici ribattono che nessun grande player ha ufficialmente dichiarato supporto al file come segnale di ranking o come fonte privilegiata; che un llms.txt mal scritto rischia di essere solo un’altra pagina testuale poco amichevole per l’utente; e che, essendo facile da generare da una sitemap, può diventare un veicolo di spam o di “keyword stuffing” in guanti bianchi. La verità, come spesso accade, vive nel mezzo: llms.txt non ti farà scalare Google, ma può rendere più probabile che un LLM trovi, capisca e citi la tua risposta – che è poi il nuovo campo di battaglia dell’attenzione.

# Nome del Progetto o del Sito
> Breve descrizione del progetto
Dettagli opzionali sul contenuto del sito

## Documentazione
– [Guida Utente](https://esempio.com/guida): Introduzione all’uso del sito

## Contenuti Aggiuntivi
– [Articoli del blog](https://esempio.com/blog)

## Notizie in Primo Piano
– [Ultime Notizie](https://esempio.com/notizie)
– [Approfondimenti](https://esempio.com/analisi)
– [Editoriali](https://esempio.com/opinioni)

A livello pratico, la struttura proposta è disarmante nella sua semplicità. Il file inizia con un unico H1 che nomina progetto o sito: è l’etichetta sul dorso della tua enciclopedia. Subito sotto, un blockquote sintetizza scopo e perimetro: poche righe, niente slogan, solo contesto utile. Poi arrivano le sezioni – H2 – che raggruppano i link per aree tematiche. Ogni collegamento è scritto in Markdown, con un titolo leggibile e, dopo i due punti, una micro-descrizione che orienta il modello prima ancora che apra la pagina. Esiste anche una sezione speciale, chiamata convenzionalmente “Optional”, che raccoglie materiali utili ma non essenziali: se il contesto è stretto, un LLM può saltarla senza sensi di colpa. Il risultato, quando è fatto bene, è un documento che potresti leggere anche tu, come indice ragionato del tuo sito.

C’è poi un fratello maggiore, llms-full.txt, che vale la pena citare perché spiega fino a che punto si può spingere questa filosofia. Se llms.txt è la mappa del tesoro, llms-full.txt è il forziere aperto: un unico file, spesso molto lungo, che accorpa il contenuto testuale rilevante in Markdown – manuali, guide, FAQ, reference – così da poter essere caricato o consultato in blocco da strumenti e IDE che integrano LLM. È una scelta sensata per documentazioni tecniche e knowledge base, meno per blog o magazine generalisti. È utile, ma va maneggiato con cura: pesa, invecchia, rischia di finire in SERP se non lo tieni lontano dall’indicizzazione classica. E soprattutto richiede manutenzione costante per restare allineato alle pagine originali.

La domanda da un milione di crediti galattici è: serve davvero? Se hai un e-commerce, una tech company, una piattaforma con policy, resi, termini di servizio e una documentazione che gli utenti chiedono continuamente agli assistenti AI, la risposta pragmatica è “probabilmente sì”. Non per la SEO classica, ma per la AI visibility: la capacità di far sì che un assistente, quando deve rispondere su di te, ti legga e ti citi in modo fedele. Se sei un blog o un magazine, il valore si fa più sottile: llms.txt non ti porterà traffico diretto né posizionamenti migliori; può però aiutare a fissare alcune “porte d’ingresso” del tuo lavoro – le pagine “Chi siamo”, le policy editoriali, le rubriche cardine – evitando che l’AI si perda in filtri, infinite scroll e pop-up che piacciono al marketing ma confondono i modelli.

Arrivati qui, è utile ragionare su cosa rende davvero “LLM-friendly” una pagina. Non è questione di schema.org o di magie markup: è la leggibilità. Paragrafi brevi, titoli chiari, gerarchie prevedibili, concetti esplicitati presto, distrazioni ridotte al minimo. Più il testo è segmentato e semanticamente trasparente, più è facile che un LLM lo “mantichi” senza allucinare, lo riusi correttamente e lo citi con precisione. llms.txt, in fondo, è un invito a fare quello che dovremmo fare comunque: scrivere bene, organizzare meglio, scegliere con cura le nostre “pagine bandiera”.

Un’altra area in cui conviene essere onesti è la coabitazione con robots.txt. llms.txt non sovrascrive le regole sui crawler: se hai bloccato certi agent nel robots, restano bloccati. llms.txt entra in scena dopo il permesso d’accesso, quando un modello ha la facoltà di leggerti e gli vuoi semplicemente indicare dove guardare. Allo stesso modo, non ha effetti sulla indicizzazione tradizionale: Google non ti premia per averlo, e probabilmente non gli interessa. Il suo raggio d’azione è l’inference, cioè quel momento in cui un utente chiede a un assistente “Come funziona il reso su Acme Shop?” e tu vuoi che la risposta citi la tua pagina “Spedizioni e Resi” e non quella di un forum del 2018.

Sul fronte dell’adozione, siamo nella fase che i fan della fantascienza chiamerebbero early warp. Esistono già esempi pubblici, directory che raccolgono implementazioni, piattaforme di documentazione – Mintlify è spesso citata – che offrono strade comode per generare il file anche partendo da una sitemap. Qualcuno ha creato generatori “one-click”, qualcuno ha scritto plugin e script. L’idea circola, viene sperimentata, viene fraintesa (non è un robots.txt!) e lentamente trova una propria grammatica d’uso. Ma è bene non farsi illusioni: non c’è un bollino ufficiale dei grandi fornitori che ne garantisca l’efficacia universale. È uno strumento giovane, con un potenziale chiaro e dei limiti altrettanto chiari.

E allora come si porta a casa valore, senza cadere nell’ennesima moda passeggera? Si parte dal progetto editoriale. Definisci quali sono le pagine che rappresentano davvero il tuo sapere: quelle che, citate fuori contesto, non tradiscono il senso; quelle aggiornate, robuste, “evergreen”. Scrivi una descrizione onesta in cima al file, che spieghi in due righe chi sei e cosa troverà un lettore – umano o artificiale. Organizza i collegamenti in sezioni intelligibili: documentazione, guide, policy, contatti, risorse per la stampa, ciò che serve a capire te prima ancora di capire il singolo articolo di giornata. Se hai contenuti utili ma non fondamentali, mettili in coda, in una sezione che non pretenda attenzione quando l’attenzione è poca. E, soprattutto, mantieni: un llms.txt stantio è peggio di nessun llms.txt.

Un inciso importante riguarda le versioni testuali pulite dei contenuti. Non è obbligatorio, ma se puoi offrire endpoint Markdown o pagine “ridotte all’osso” senza orpelli grafici, fallo. Non stai solo aiutando gli LLM: stai costruendo una strada di servizio per tutte le forme di fruizione automatizzata del tuo sito, dai reader agli strumenti di accessibilità. È un investimento che paga in resilienza.

In controluce, llms.txt racconta qualcosa anche del nostro rapporto con l’AI. Per mesi abbiamo subìto l’idea che i modelli arrivassero, raspessero, digerissero e restituissero – spesso senza chiederci il permesso e quasi mai seguendo la mappa mentale che avevamo in testa. llms.txt è un piccolo atto di regia: non impedisce la navigazione, ma prova a darle una trama. È come lasciare sul tavolo di un ospite una guida scritta a mano: “Se hai dieci minuti, leggi questa; se ne hai trenta, passa anche di qua; se devi citarmi, cita questo”.

La chiosa, da magazine nerd, è inevitabile. Nelle storie che amiamo – da The Legend of Zelda a Mass Effect, da Dune a Neon Genesis Evangelion – le mappe non servono a sostituire l’esplorazione: la rendono significativa. Ti indicano i punti di interesse, ti evitano i vicoli ciechi, ti mettono nella condizione di scoprire, non di vagare. llms.txt promette questo agli LLM che oggi stanno diventando l’interfaccia del sapere online. Non è una bacchetta magica, non è un trucco SEO, non è un lasciapassare. È un invito curato a leggere meglio. E in un web che soffoca di frizioni, non è poco.

Se gestisci un progetto con documentazione tecnica, API, policy o una knowledge base che gli utenti interrogano spesso via assistenti, ha senso metterlo in prova, misurare l’effetto sulle risposte e iterare. Se sei un magazine o un blog, può essere un modo per fissare le tue porte d’accesso editoriali e per raccontarti con coerenza agli agenti che – piaccia o no – stanno diventando i nostri nuovi “meta-lettori”.

La domanda finale non è “llms.txt mi farà crescere in SERP?”, ma “quando un’AI parlerà di me, cosa leggerà per prima?”. Se la risposta oggi è “non lo so”, questa piccola mappa potrebbe essere il primo, utile, passo.


Parliamone: stai pensando di sperimentare llms.txt sul tuo sito? Hai già provato una versione “full” per una documentazione corposa? Raccontaci nel commenti cosa ha funzionato, cosa no e quali strumenti ti hanno aiutato a generarlo. La community di CorriereNerd vive di questi crash test: più condividiamo, più cresciamo tutti.

Redazione

Redazione

C'è un mondo intero, c'è cultura, c'è Sapere, ci sono decine di migliaia di appassionati che, come noi, vogliono crescere senza però abbandonare il sorriso e la capacità di sognare. CorriereNerd.it è il magazine online di Satyrnet, che racconta con passione e ironia tutto ciò che vibra nel multiverso geek: fumetti, cinema, serie TV, videogiochi, manga, anime, fantascienza, leggende, intelligenza artificiale, cosplay e cultura pop. Vuoi entrare anche tu in questo universo e condividere le tue idee con la community nerd? Invia i tuoi articoli a press@satyrnet.it e diventa parte della nostra avventura editoriale!

Aggiungi un commento

Seguici sui social