Aller au contenu
Search intent et vector embeddings : le SEO en 2026

Search intent et vector embeddings : le SEO en 2026

Par Guillaume P.

6 min de lecture
Lien copié dans le presse-papiers
Guillaume P.

Vous optimisez encore pour les mots-clés. En 2026, Google classe selon la distance vectorielle entre votre contenu et l'intention de recherche. Les deux cohabitent. Mais un seul des deux vous fait passer le filtre des AI Overviews.

D'où ça vient#

Google n'a pas attendu ChatGPT pour faire du sémantique. Rappel rapide.

  • 2013 : Word2Vec, signé Tomas Mikolov. Premier embedding vectoriel chez Google. Statique, rudimentaire, mais la graine est plantée.
  • 2018 : Neural Matching et RankEmbed. Matching conceptuel via cosine similarity, architecture dual-encoder. Google commence à comprendre que « tarif plombier » et « prix dépannage sanitaire » veulent dire la même chose.
  • 2019 : BERT, annoncé en octobre. Embeddings contextuels. Le mot « bank » ne veut plus dire la même chose selon la phrase.
  • 2026 : modèles type Gemini, transformers multi-couches, représentations encore plus riches.

En clair : ça fait treize ans que Google fait du vectoriel. Ce qui change en 2026, c'est la part du ranking qui en dépend.

Comment Google classe vraiment#

La réalité du terrain : Google ne choisit pas entre lexical et sémantique. Il fait les deux.

Architecture actuelle, bien documentée :

  1. BM25 fait le rappel lexical. Gros filet à mailles larges. Il ramène les candidats qui contiennent vos mots (ou leurs variantes).
  2. BERT et embeddings denses font le re-ranking. Ils recalculent l'ordre selon la proximité sémantique entre la requête et chaque page.
  3. Les résultats sont fusionnés. Pas remplacés.

Conséquence directe : la densité de mots-clés n'est pas morte. Elle reste un signal de rappel côté BM25. Ce qui est mort, c'est l'idée qu'elle suffit.

Google calcule aussi un vecteur moyen représentatif de l'ensemble de votre site. Votre cohérence thématique globale pèse. Un article isolé sur un sujet hors-piste a moins de chances de sortir qu'un article adossé à un cluster déjà vectoriellement dense sur le sujet.

Les 4 intentions, version vectorielle#

La taxonomie standard tient toujours : informationnelle, navigationnelle, commerciale, transactionnelle. Ce qui a changé, c'est la manière dont Google les détecte.

Avant : patterns lexicaux (« acheter », « avis », « comment »). Aujourd'hui : position du vecteur de la requête dans l'espace sémantique. Deux requêtes qui n'ont aucun mot en commun peuvent être classées dans la même intention si leurs embeddings sont proches.

Le problème : si votre page cible une intention commerciale avec un ton purement informationnel, votre vecteur de page s'éloigne du vecteur de requête. Vous perdez sans jamais comprendre pourquoi.

Le seuil 0.7 de Vertex AI#

Donnée officielle, à connaître. Google Vertex AI applique un seuil dynamique de retrieval à 0.7 (cosine similarity) par défaut pour inclure un document dans le contexte d'un LLM. En dessous, le document est écarté.

Ce n'est pas le ranking organique classique. Mais c'est la même logique qui descend partout. Votre contenu doit vivre au-dessus de 0.7 de similarité avec l'intention visée, pas en dessous.

Ce que dit l'étude AI Mode Boost#

Attention : ces chiffres ne viennent pas de Google. Ils viennent d'une étude tierce sur 15 847 résultats d'AI Overviews, méthodologie GPT-4 Turbo + Claude 3.5 Sonnet + OpenAI text-embedding-3-large. Ils mesurent la sélection dans les AI Overviews, pas le ranking bleu classique.

Avec ce cadre bien posé, les résultats :

  • Score cosine similarity supérieur à 0.90 : 89 % de taux de sélection en AI Overview.
  • Entre 0.85 et 0.89 : 67 %.
  • Entre 0.80 et 0.84 : 34 %.
  • En dessous de 0.80 : 13 %.

Conclusion des auteurs : un contenu au-dessus de 0.88 est sélectionné 7,3 fois plus qu'un contenu sous 0.75. Dans les AI Overviews. Pas sur la SERP bleue. Ne mélangez pas les deux.

J'ai testé sur trois clients cette année. Verdict : la corrélation tient pour les citations AI Overview. Sur le ranking organique classique, l'effet existe mais il est noyé dans les autres signaux (autorité, fraîcheur, UX).

Ce que ça change concrètement#

Le problème : la plupart des audits SEO en 2026 regardent encore la densité, le nombre de H2, la longueur. C'est utile, mais ça ne vous dit rien sur votre distance vectorielle à l'intention.

Ce qui marche, dans l'ordre :

  1. Cartographier les intentions par embedding, pas par mots-clés. Prenez vos requêtes cibles, passez-les dans un modèle d'embedding (text-embedding-3-large ou équivalent), regroupez par clusters cosine. Vous verrez apparaître les vraies familles d'intention, pas celles que vous imaginiez.
  2. Mesurer la similarité page/requête. Vectorisez votre contenu, vectorisez la requête cible, calculez le cosine. En dessous de 0.80, vous êtes hors-jeu côté AI Overviews.
  3. Renforcer le vecteur moyen du site. Un cluster thématique dense tire toutes ses pages vers le haut. C'est le principe du maillage en silo, mais appuyé par de la vraie proximité sémantique, pas par des ancres optimisées à la main.
  4. Garder les fondamentaux BM25. Les mots comptent encore au rappel. Écrire « tarif plombier Lyon » sans jamais mentionner Lyon, c'est se tirer une balle lexicale dans le pied.

Ce que je ferais à votre place#

Un audit vectoriel par trimestre sur vos 50 pages les plus stratégiques. Coût : quelques euros d'API embeddings, deux heures de script. Rendement : vous identifiez les pages qui « parlent du sujet » sans être dans l'intention, et vous les réécrivez. C'est la brique qui manque dans 90 % des stratégies SEO que je vois passer.

Pour aller plus loin côté IA générative, lisez llms.txt et robots.txt pour l'IA et AEO et AI Overviews. Côté structure de contenu, clusters thématiques et EEAT prolonge la logique vectorielle en architecture éditoriale. Et pour anticiper les pics d'intention, velocity strategy et Google Trends.

Sources#

  • Google Cloud, documentation Vertex AI (seuil de retrieval 0.7), https://cloud.google.com/vertex-ai/docs
  • Lumar, études sémantique et ranking, https://lumar.io/
  • Backlinko, données SERP et facteurs de ranking, https://backlinko.com/
  • AI Mode Boost, étude sur 15 847 résultats AI Overviews (méthodologie GPT-4 Turbo + Claude 3.5 Sonnet + text-embedding-3-large)
  • Historique Word2Vec : Mikolov et al., Google, 2013
  • BERT : annonce Google Search, octobre 2019
Lien copié dans le presse-papiers

À lire aussi