Un LLM ne lit pas une page comme un humain. Il en survole la structure, identifie quelques blocs candidats à l'extraction, en retient deux ou trois et compose une réponse. À technique équivalente, l'écart de performance entre deux pages tient souvent à des structures de format qui n'ont rien à voir avec le SEO classique.
Dans le précédent article de cette série consacrée au GEO, on a couvert les fondations techniques d'un site visible en 2026. Sans ces fondations, la page n'est même pas accessible au crawler. Mais une page accessible n'est pas automatiquement une page citée. Le tri se fait à l'étape suivante : sur le format du contenu lui-même.
Cet article décrit les prinicpaux réflexes éditoriaux et de structure de contenu que les moteurs génératifs préfèrent extraire, illustrés par un avant/après court pour chacun. Il décrit aussi le rôle que joue le JSON-LD dans cette logique, les différences observées entre ChatGPT, Perplexity et Claude, et la checklist à imposer dans une chaîne de production de contenu.
Comment un LLM parcourt-il et extrait une page ?
Un crawler Google parcourt une page de bout en bout, puis calcule un score, et enfin range la page dans un index. Au moment d'une recherche faite sur le moteur de recherche, l'algorithme classe les pages indexées et renvoie une liste de liens. La page entière est l'unité utile.
Une IA générative fonctionne différemment. Quand un utilisateur pose une question à ChatGPT, Perplexity ou Claude, le système identifie quelques sources candidates, télécharge les pages, segmente leur contenu en blocs courts, et choisit deux à six passages qu'il assemble pour produire une réponse en langage naturel. La page entière n'est plus l'unité utile. Le bloc de quelques lignes l'est.
Quelles conséquences directes pour le format du contenu ?
La densité de mots clés perd de son importance pour favoriser la densité de blocs autoporteurs. Il faut donc organiser et segmenter votre contenu en sections nettes avec des affirmations qui répondent aux questions que les utilisateurs posent à leur IA favorite.
La nature probabiliste du fonctionnement d'un LLM exige que chaque bloc soit indépendant du contexte d'un bloc précédent et sans ambiguïté. Un IA générative évitera de fournir un résultat qui serait un contresens. Il faut donc éviter de commencer un paragraphe par des tournures comme "comme vu précédemment" ou "comme expliqué dans le premier article de cette série" (confère le début de cet article, mais il faut aussi penser à ses lecteurs, c'est ma priorité).
Les signaux d'autorité qui complètent le contenu prennent une importance capitale. Parmi ces signaux on peut noter l'auteur, la date de publication et la date de mise à jour du contenu, et la structure qui publie ce contenu. Ces éléments sont importants car ils permettent de générer une réponse circonstanciée et satisfaisante à la personne qui interagit avec le LLM.
Quelles sont les structures de contenu préférées des IA ?
1. Les IA aiment le contenu hiérarchisé :
Il faut que le contenu soit organisé dans son code (les bots lisent le code des pages et s'en servent pour comprendre ce qui est écrit) en utilisant les headings H1, H2, H2 etc.
Un H1 unique qui annonce le sujet de la page. Des H2 qui découpent les grandes parties. Des H3 sous chaque H2 quand la profondeur le justifie. Pas de saut de niveau (un H2 suivi directement d'un H4 perd les deux moteurs et le lecteur). Souvent les pages manquent d'un H1 ou en ont plusieurs et la structure des headings est incohérente.
Avant/Après :
Avant : un article de blog titré « Notre vision du marché » avec quinze sous-titres en gras, sans hiérarchie, tous au même niveau visuel.
Après : le même article, restructuré en quatre H2 (Constat, Causes, Conséquences, Pistes), avec deux à trois H3 sous chaque H2.
Mon astuce : j'utilise pour m'aider dans mes audits et dans les projets de refonte qui me sont confiés l'extension Chrome SEO META in 1 CLICK qui est très simple et franchement utile.
2. Utiliser sur certaines pages des FAQ explicites avec des réponses autoporteuses :
Le format question / réponse courte est probablement la structure la plus extractible qui existe en 2026. Une question formulée comme un utilisateur la poserait. Une réponse de deux à quatre phrases qui se suffit à elle-même, sans renvoi à un paragraphe précédent et sans dépendance à la phrase qui suit.
Avant/Après :
Avant : « Notre méthodologie repose sur une analyse en trois phases. Voir section précédente pour le détail. »
Après : « Combien de temps prend un audit GEO complet ? »
« Entre dix et quinze jours ouvrés pour un site de moins de 500 pages. Le délai inclut la collecte de données, l'analyse technique, l'analyse éditoriale et le rapport. Une revue avec l'équipe est prévue à mi-parcours. »
Ne pas oublier : Pour maximiser l'efficacité de votre FAQ pour le GEO, il faut l'intégrer dans les données structurées de votre site via le JSON-LD
3. Montrer son autorité pour devenir une source citable et la récence du contenu :
Un contenu signé par un auteur identifiable, dont une page profil expose les références (rôle, expertise, organisation), gagne en autorité aux yeux des moteurs génératifs. L'auteur est rattaché à une "Person" JSON-LD, elle-même reliée à l'"Organization" éditrice. Cette chaîne d'attribution est lisible par les machines comme par les humains.
Les LLM tiennent compte de la fraîcheur. Un article daté et révisé récemment est privilégié, à qualité égale, sur un article daté d'il y a trois ans sans révision visible. La mention « Publié le » et « Mis à jour le » doit être présente sur la page, idéalement aussi dans le JSON-LD `Article` (`datePublished`, `dateModified`).
Avant/Après :
Avant : Vos pages éditoriales ne contiennent ni auteur, ni date de publication, ni date de mise à jour.
Après : Les mêmes pages complétées des mentions visibles de son auteur, de sa date de publication, et de sa date de mise à jour (si une mise à jour est faite). Ces informations affichées doivent être reflétées dans le JSON-LD de la page et lier l'auteur à une page (type Linkedin).
Les publications signées avec attribution et datées on plus de chances d'apparaître dans les sources retenues et citées des LLM.
4. Il faut penser à soigner son JSON-LD qui orchestre le contenu extractible
Les balises utilisées dans JSON-LD pour chaque page rendent lisible aux machines ce qui est déjà visible dans le contenu. Une page sans structure éditoriale claire ne devient pas citable parce qu'on ajoute du JSON-LD. L'inverse est vrai : une page bien structurée gagne en potentiel quand le JSON-LD vient confirmer la structure.
Cinq balises essentielles sont à retenir :
- La balise `Article` porte le titre, la date de publication, la date de mise à jour, l'auteur et l'éditeur. Elle structure la chaîne d'attribution.
- La balise `FAQPage` rend explicite, pour les machines, la structure question / réponse présente dans le HTML. Elle alimente aussi les rich results Google quand ils sont attribués.
- La balise `Person` décrit l'auteur et permet de relier ses publications entre elles. Couplée à une page profil dédiée, elle structure l'autorité.
- La balise `Organization` rattache la page à une entité éditrice avec ses identifiants.
- La balise `BreadcrumbList` reflète la position de la page dans la navigation, ce qui aide les moteurs à comprendre la hiérarchie thématique.
Toutes les améliorations présentées ici permettent aussi de renforcer les signaux SEO et d'enrichir les requêtes qui mènent à vos pages de Rich Results sur Google notamment.
Les IA aiment les pages mono-sujet
En complément de ces artefacts techniques, en prenant en compte l'état technologique de fonctionnement et de compréhension des LLM du contenu soumis et parcouru, il est essentiel, aujourd'hui, de limiter les pages de contenu éditorial à un seul sujet.
Une page qui couvre un seul sujet, dont l'intention se lit dans les deux cents premiers caractères, est retenue plus volontiers comme source. Les pages fourre-tout (longues, multi-thèmes, sans intention claire) sont extraites de façon imprévisible.
Avant/Après :
Avant : un article intitulé « Tendances du retail en 2026 » qui couvre sur 4 000 mots la logistique, le paiement, l'IA, les nouvelles enseignes, le pricing dynamique et la fidélisation.
Après : six articles distincts, chacun centré sur une seule de ces dimensions, reliés entre eux par un maillage interne propre.
L'erreur à ne pas commettre : écrire du contenu uniquement à destination des LLM
Lorsque vous produisez du contenu, n'oubliez pas que vous devez le faire d'abord pour des lecteurs humains et leur apporter une information fiable qui rend service.
Les patterns décrits dans cet article ne sont utiles que s'ils agissent à rendre votre contenu accessible à de vrais lecteurs . Une page truffée de FAQ artificielles, de paragraphes courts hachés, de annonces sourcées à outrance, perd en qualité de lecture pour gagner en citabilité.
Le bénéfice net est négatif : le LLM la cite peut-être, mais l'humain qui clique repart.
La règle d'arbitrage est simple. Si une optimisation pour la machine dégrade la lecture humaine, on retire l'optimisation. Le contenu sert d'abord la personne qui le lit. La citabilité par les LLM est un effet de bord d'un contenu bien structuré, pas un objectif à poursuivre indépendamment.
Bien employés, ces conseils et éléments utiles servent votre audience en structurant vos pages et en permettant d'accéder facilement à l'information recherchée, tout en renforçant votre présence sur les outils que vos lecteurs utilisent pour trouver les informations qu'ils recherchent.
Mon métier : vous aider à rendre votre contenu visible des IA
A travers cet article et le précédent, consacré aux fondations techniques du GEO, mon intention est de vous donner une information simple et accessible sur le GEO et vous donner les clés d'une des manières importantes de toucher vos cibles en 2026. L'usage des IA et LLM fait désormais partie de notre quotidien.
Cet article ne se substitue pas et ne remplace les bonnes pratiques de rédaction qu'une agence ou un expert éditorial SEO/GEO pourrait vous donner sur votre stratégie de contenu. Il vient en complément et doit vous permettre de comprendre la structure et les éléments techniques nécessaire pour que ces stratégies soient efficaces.
En revanche, je peux vous aider à mettre en place ces éléments sur vos sites en tant que product manager et conduire vos développements pour améliorer le rendement de vos initiatives de contenu.
Mes recommandations proviennent de recherches extensives menées lors du développement de Lugor. Lugor est une plateforme permettant de créer des sites web optimisés pour les meilleurs résultats GEO et SEO.
Questions fréquentes
Les deux apportent. La FAQ HTML rend le contenu extractible par tous les moteurs génératifs. La balise "FAQPage" JSON-LD rend la structure explicite pour les machines et alimente les rich results Google quand ils sont attribués. Mettre les deux est la bonne pratique. Mettre uniquement le JSON-LD sans FAQ visible dans le HTML est inutile, voire contre-productif.
Oui, sur la marge. Un paragraphe de quinze lignes qui contient plusieurs idées est moins extrait qu'un paragraphe de quatre lignes qui en contient une seule. Si ce paragraphe long porte des informations critiques, il vaut mieux le découper en blocs autoporteurs. Si la longueur sert la démonstration sans dépendance interne, elle peut rester.
Aucun outil ne donne cette information de façon exhaustive en avril 2026. Le moyen pratique : interroger ChatGPT, Perplexity et Claude sur une dizaine de requêtes proches de votre cible, noter quelles sources sont citées et quels passages sont repris. Faire ce test une fois par mois donne une tendance fiable.
Quatre à six questions par page de contenu stratégique. Au-delà, l'effet décroît. En dessous, la surface citable est trop faible. Les questions doivent être formulées comme un utilisateur les poserait, pas comme une marque les promouvrait.
Par les fondations techniques si le site bloque les crawlers IA, si le contenu est inaccessible sans JavaScript, ou si le JSON-LD est absent. Sans ces fondations, le format éditorial le plus impeccable reste invisible. Une fois les fondations en place, le format éditorial devient le levier principal.
Points clés
- Un LLM ne lit pas une page de bout en bout. Il segmente, scanne les titres, extrait des blocs autoporteurs, compose une réponse à partir de plusieurs sources.
- Sept éléments éditoriaux concrets différencient une page citable d'une page indexée mais ignorée. - Le JSON-LD (Article, FAQPage, Person, Organization, BreadcrumbList) amplifie une structure éditoriale claire. Il ne la remplace pas.
- Les éléments clés du GEO améliorent en parallèle la lecture humaine. Si une optimisation IA dégrade la lecture humaine, on la retire.
Glossaire
- Bloc autoporteur
- Passage de quelques phrases qui se suffit à lui-même, sans dépendance à un paragraphe précédent ou suivant. Unité de base de ce qu'un LLM extrait pour composer une réponse.
- Citabilité
- Probabilité qu'un contenu soit retenu comme source dans la réponse d'un moteur génératif (ChatGPT, Perplexity, Claude, Google SGE). Distincte de l'indexabilité qui mesure la capacité d'un crawler à accéder à la page.
- FAQPage
- Type de balise JSON-LD défini par Schema.org qui structure un ensemble question / réponse à destination des moteurs. Lue à la fois par Google (rich results) et par les moteurs génératifs.
- GEO (Generative Engine Optimization)
- Ensemble de pratiques visant à faire citer un contenu dans les réponses des moteurs d'IA. Complète le SEO classique sans le remplacer.
- Page mono-sujet
- Page dont l'intention se lit clairement dans les deux cents premiers caractères et qui ne couvre qu'un seul sujet de fond. S'oppose aux pages fourre-tout multi-thèmes.
Sources
- Documentation Schema.org
- Search Engine Land, articles GEO et benchmarks de citation 2025-2026
- Google Search Central, documentation rich results et structured data
- Profound, études de citation par les moteurs IA
- BrightEdge, recherches SEO et GEO
- llmstxt.org, spécification du standard llms.txt par Jeremy Howard (Answer.AI)
- Associer GEO et SEO : les fondations techniques d'un site visible en 2026



