La Sémantique et le référencement sur Google

Actualitéaccessibilité

Publié par le (13419 lectures)

Un billet s'est fait remarquer récemment, celui du blog de Cybercodeur.net [fr].

Ce billet a donné lieu a des réactions multiples, souvent enthousiastes, notamment celle de [NikO] [fr].

D'autres avis (certains antérieurs à ce billet) étaient plus sceptiques : un billet récent sur Alsa, un billet de Laurent Denis, ou encore ou de Yeca.

L'idée générale est de démontrer enfin les rumeurs qui diraient que Google tient compte de la sémantique des pages web, de leur construction conforme aux Standards (XHTML, CSS, séparation de la forme et du fond, etc.) et facilite le référencement de tels sites conformes.

Il est vrai que l'information, tout aussi intéressante qu'elle soit, n'émane pas de source officielle. A vous de vous faire un avis...

Commentaires

Je suis pas du tout sceptique mais plutôt d'accord avec le fait que sémantique et référencement sont très étroitement liés moi :)

Je pense également que la sémantique et le référencement sont assez liés, ce qui ne signifie pas qu'il s'agisse d'une recette miracle !
Malheureusement, les webmasters ont toujours eu tendance à vouloir "pousser leur site" par de multiples techniques (mots-clés cachés au visiteurs, faux mots-clés, google-bomb, ou même, comme tu le dis dans ton autre billet, <h1> multiples). C'est bien malheureux, car ce que les gens cherchent avant tout sur le web, c'est de l'information. Imaginez que dans une bibliothèque vous cherchiez des informations très importantes pour un exposé, que vous cherchiez avec les mots clés "socrate ciguë" et que vous tombiez en premier sur les confessions d'un top-model à la mode, vous ne seriez sans doute pas ravis. Pourtant c'est ce qui se passe sur le web !

Webmasters de tous bords, que le site dont vous vous occupez soit un blog ou le site commercial d'un client, proposez du contenu valable, faites connaitre votre site à d'autres, et votre site sera automatiquement visité ! Si votre contenu est bon, les gens seront intéressés, les gens feront des liens vers votre site, et vous gagnerez en popularité...
Et la sémantique dans tout ça ? Et bien il est à mon avis probable que les moteurs de recherche en tiennent compte, bien que ce soit pondéré par d'autres facteurs (à mon avis, les multiples h1 avec des mots-clés sont plutôt contre-productifs), mais ce n'est en tout cas pas une recette miracle.

Je vais résumer le fond de ma pensée: LE CONTENU EST ROI !

Je confirme, toujours selon Wendy Muller, la pertinence du contenu est le facteur numéro 1 des résultats d'indexation.

Je le disais récément sur le HUB !
Du contenu, du contenu, du contenu et encore du contenu !
Mais alors pourquoi alsacréations est il si bien placé dans google ? ! :p

@docLegi> "socrate ciguë" nous donne un dictionnaire des plantes qui traite entre autre de la "Ciguë de Socrate"...donc pas de défaitisme ;o)

En même temps on a peut être tort de le crier sur les toits, ça va se savoir et on va se faire griller après :p

@Yeca : "Je suis pas du tout sceptique mais plutôt d'accord avec le fait que sémantique et référencement sont très étroitement liés moi"

>> Disons que j'ai trouvé dans ton billet un recul que j'ai pris pour du scepticisme... en tout cas je ne peux pas te rallier parmi les liens "très enthousiastes" ;-)

Sceptique... entendons-nous bien :
- Je ne suis pas sceptique sur le rôle que **pourrait** jouer la sémantique HTML pour des moteurs de recherche généralistes.
- je ne suis pas sceptique sur le fait qu'elle joue un rôle dans le fonctionnement actuel de Google.

Là où je suis sceptique, c'est lorsqu'il s'agit de dire :
- quelle importance a la sémantique HTML pour Google actuellement (son rôle me semble souvent exagéré a priori).
- que Google et les promoteurs de la sémantique HTML auraient de celle-ci la même interprétation : du point de vue Googlien, par exemple, <b> est un élément sémantique de facto.
- que la stratégie commerciale de Google lui permette de mettre en oeuvre une éventuelle orientation de plus en plus sémantique (au sens strictement standard HTML), qui serait beaucoup plus transparente que son fonctionnement actuel.
- que la sémantique HTML serait la seule et unique voie d'avenir des moteurs de recherche du type Google.

L'avis est plus ou moins fait. Eric nous a bien montré qu'un référencement fonctionne beaucoup mieux lorsque la sémantique est correcte. Même s'il a perdu le concours, nous avons tous plus ou moins vu que la position n'était pas mise uniquement sur les backlinks mais aussi sur la structure du site.

Cependant, si Google affirme un jour que les normes permettent un meilleur référencement sur la toile, de nombreux sites web feront peau-neuve.

Google produit avant tout de la quantité, de la masse de documents indexés, quelque-soit le format, le codage standard, propriétaire, avec les pieds ou la langue... Google s'en fout : il digère à peu près n'importe quoi (Pas tout à fait en fait, puisqu'il a du mal avec les sites dynamiques ou les liens javascript, qui n'ont rien de non-standards d'ailleurs)

Mais comme il fait bien présenter tout cela linéairement, bêtement... Google a besoin d'un ordre arbitraire. Il baptise cela "pertinence", et on s'abuse beaucoup là-dessus. Mais la seule chose que ce concours des cigognes aura pu montrer, c'est que la pertinence selon Google relève de manipulations qui n'ont pas grand chose à voir avec la sémantique ;)

Bonsoir,
Je lis que le contenu est important, certes cela est extrèmement vrai.
Personne ne pourrait le contredire.
Cependant, il faut bien prendre en compte (ce que Google fait également) la sémantique.
En effet, le contenu c'est bien, le contenu utilisé dans les bonnes balises c'est mieux.

Je m'explique, mais avant tout, je voudrais bien que l'on ne mélange pas trop référencement et positionnement.
De nos jours quasi tout le monde est référencé.
Le bon référencement est le fait d'avoir de nombreuses pages sur de nombreux outils de recherche.
Le positionnement est le fait d'être haut classé pour un mot-clé.

Passons maintenant à la sémantique et au positionnement.....
Il existe un terme que vous connaissez surement, c'est celui de :
<b>Scoring</b>
Bien que l'on ne puisse pas connaitre les algos des moteurs, on peut les devinner (du moins pour les plus évidentes).
Ainsi pour résumé grossièrement la chose on pourrait dire que pour 2 sites proposant exactement le même contenu (TEXTE) celui, le plus sémantiquement correct apparaitrait le mieux classé sur les mots-clé qu'ils mettent en valeur.

Tout cela bien sur sans rentrer dans les considérations de PR et de liens que pourrait bénéficier les 2 sites fictifs.

Cela m'emmène à penser, que Google (et les autres) ont pris en considération ce problème de non-respect de sémantique.
Il ne peuvent pas changer leurs Algos du jour au lendemain mais en tous cas ils travaillent dans le bon sens.

Il ne vont pas tout bousculer avant l'avénement du XML qui remplacera le XHTML.

Voilà rapidement ce que j'en pense àprés lecture des différents posts.

"Il ne vont pas tout bousculer avant l'avénement du XML qui remplacera le XHTML." Attention, le XML n'est pas prévu à l'heure actuelle pour remplacer le XHTML, de ce que je peux lire sur le net, les XHTML a de beaux jours devant lui !

@Chris :
- "En effet, le contenu c'est bien, le contenu utilisé dans les bonnes balises c'est mieux."
>> Oui Chris, mais c'est justement exactement ce que dit en substance le billet sur Cybercodeur, et c'est justement l'objet du débat.

- "<b>Scoring</b>"
>> Je ne suis pas sûr de ce que tu veux montrer avec cet exemple, mais <b> n'est justement *pas* une balise sémantique mais de présentation (donc dépréciée). Si on veut lui donner du sens, il faudrait la remplacer par <em> ou <strong>.

@ElMoustiko > je suis entièrement d'accord avec toi. D'ailleurs je n'ai jamais entendu que XML allait un jour remplacer XHTML... puisque l'un des usages de XML est de produire du XHTML justement pour le web.

@Raphaël, tu ne l'as peut être jamais entendu, mais tu viens de le lire :)
"Il ne vont pas tout bousculer avant l'avénement du XML qui remplacera le XHTML." - Chris -

Et ce n'est pas la première fois que je le lis ;)

Une fois on m'as même soutenu mordicus que xhtml/css c'etait nul, le gars disait coder en XML/css... (des pages style page perso) mwarff j'imagine le résultat sur IE ;)

Par contre, je crois (Laurent confirmera ou me mettre un coup de cable ! :p ) que le xhtml n'est pas du XML, mais du html codé avec la syntaxe/rigueur du XML, enfin tout dépend de quel xhtml on parle, le xhtml1.1 en tant qu'application xml+xhtml est du XML rééllement si j'ai bien suivi.

En fait coder en xhtml1.0 Strict en tant que html, c'est pas du XML
(je me base sur : blog-and-blues.org/weblog... et mes lectures personnelles)

Donc XML est bien à 200 lieues de remplacer XHTML :) (en tant qu'HTML pour la création de pages web)

Je suppose que Chris a simplement fait un lapsus : c'est le HTML qui est remplaçable par XML.

XHTML, lui, est un langage de transition: c'est explicite pour ses versions 1.x, un peu moins évident avec le futur XHTML2.0:
- XHTML1.0 est un dialecte XML qui reprend le vocabulaire du HTML4.01. Il a d'autre part la particularité de pouvoir être utilisé aussi bien comme un pseudo HTML que comme un XML à part entière (par le biais du fameux type mime)
- XHTML1.1 est toujours un dialecte XML qui reprend le vocabulaire HTML4.01, en l'étendant. Mais un pas de plus est franchi: il n'est plus exploitable comme un pseudo XML.
- XHTML2.0 reformule partiellement HTML4.01 avec un nouveau vocabulaire. A nouveau un pas de plus...

Bref, je crois qu'il n'y a pas lieu de se demander si XML "remplacera XHTML": l'hybride XHTML a justement été conçu pour que cette question n'ait pas à se poser;)

D'autre part, à propos de l'exemple <b>Scoring</b>: ce n'était pas le propos de Chris, il me semble, mais la remarque est intéressante. Au risque de heurter quelques vierges farouches, disons clairement que... <b> est un tag sémantique pour Google ;)

Bonjour,
Laurent Denis vient fournir les explications que je m'appretais à délivrer concernant le XML mais en mieux, donc un grand merci.
Pour revenir sur le <b>, je rajouterais comme le souligne à fort juste titre Laurent Denis, qu'effectivement <b> ne devrait plus être utilisé du fait de sa dépréciation, mais bon sachant que Google le considère visiblement dans son calcul de scoring au même titre que la famille Hx, il peut être employé encore quelques temps je pense.
Pour le <em>, je n'ai jamais constaté de différence en matière de positionnement.

Je soulève donc un autre problème.
Le phénomène de standard devient de plus en plus à la mode.
Tout le monde veut être valide et validé par le W3C sans avoir les bases suffisantes en HTML.
Pour être en conformité avec cette norme ces gens utilisent une feuille de style externe ou ils fourrent tout ce qu'ils peuvent dedans pour mettre en forme, mais il ne connaissent malheureusement pas assez de balises.
Alors on trouve ;
p.gras
p.important
p.souligné
Et les <em> <stong> ne sont pas utilisé, donc même si les pages sont valides, j'estime que la sémantique n'est pas correcte.
Il en va de même pour les Hx et ceux qui utilsent p.gros avec une tailee de texte énorme.

Maintenant, sachant (quand même) que le but premier d'un site est la visibilité.
Vaut il mieux utilisé un <b> ou un p.gras pour mettre en valeur certains mots.
Et bien d'un coté sématique vous me répondrez tous en coeur, il faut utiliser <strong>.
D'un poit de vue du référencement et positionnement, je pense qu'il faut encore utilisé <b>, cela n'étant pas si néfaste que ça et augmente notre scoring.

Pour ceux qui ne sont pas encore convaincus, le mieux est bien sur de se cantonner aux strict respect de la sémantique.
Sans être mieux référencé, vous ne le serez pas plus mal.

Enfin, ce que je considere comme acquis, c'est que les hx, sont plus fort que les td avec font size="5", je pense tout de meme que google classera différement le contenu de ces differents elements.

Aprés, il est vrai que y pas "encore" de miracle, c'est un plus, un site bien structuré, mais les backlinks, et les methodes sournoises ont pour un temps le quoi faire.

Le classement, la hierachisation de l'information, avec des pages si diversement codé reste quelques choses de difficile, aleatoire meme.

Rien que l'ordre des mots cléfs a son importance. Et encore, une personne qui découvre internet n'aura pas l'experience lui permettant de faire des requetes plus ciblé. Cette personne va peut etre taper une question, mal séléctionner les liens dans la liste de resultats.

Bref, autant de maniere de chercher, que de penser :)

Pour le <b> et le <strong>, attention (idem avec <i> et <em>) ces balises n'ont strictement rien à voir à part leur apparence par défaut sur la plupart des navigateurs, <b> sert à faire du gras, typiquement de la mise en forme, tandis que <strong> sert à marquer un ou plusieurs mots (une ou plusieurs phrases) comme important(e)s, c'est comme un trait de surligneur sur votre feuille de papier, une mise en forme possible de strong par défaut serait de mettre un en couleur de fond une couleur flashie genre fluo ou ce genre de chose, ou un text-transform: uppercase; Il ne s'agit pas de remplacer <b> par <strong> pour passer le validateur du w3c, ce n'est qu'un robot, et il ne saura pas si vous mettez <strong> pour du gras ou pour du important, on en revient aux limites des validateurs qu'il faut supléer avec des connaissances du langage que l'on utilise. Si c'est mettre <strong> pour faire du jolie gras, autant mettre <b> vous serez au moins conscient de faire un code non valide. Idem pour <i> et <em>, <i> c'est pour l'italique, <em> c'est pour marquer un texte comme "différent" du reste par exemple un mot étranger, un morceau de quelque chose à distinguer du reste du texte (par exemple on pourrait imaginer mettre des urls dans un <em> pour marquer que ce n'est pas vraiment des mots d'une phrase, ce n'est qu'un exemple).

Sinon, <strong> doit à mon avis avoir du poids dans le positionement des mots clés entouré par cette balise sinon c'est que google fait mal son boulot, parceque <strong> marque un ajout de sens à un passage de texte, une importance supérieure.

Oulà ! ElMoustiko, je vais ressortir mon bout de cable !

<em> et <strong> sont supposés ajouter au contenu une information : "ceci est important" (emphase). Et pas du tout, justement "ceci est doté d'un autre sens", que ce soit pour dire "ce n'est qu'un exemple", ou "à prendre au second degré", ou tout autre sens second et implicite.

C'est justement une difficulté que je rencontre souvent : dans le langage oral, le "second degré" de signification est facile à indiquer à travers l'intonation, la mimique, le ton, une pause, un geste, etc... C'est tout l'art de l'orateur.

Lorsqu'on écrit en HTML... Comment faire ? Deux tentations:
- mettre des guillemets (employés au sens commun de "entre guillemets", qui n'a aucun rapport avec l'idée de citation)
- mettre un italique... Un <i> ? Mais il purement présentatif et devrait ête ignoré par un outil sémantique ! Un <em> ? Il n'a pas ce sens et induira un outil sémantique en erreur !

Et pourtant, si un navigateur vocal était susceptible de restituer lui aussi mon intonation particulière d'orateur lorsque je détourne un mot de son contexte... ce serait bien utile. Et du coup, un moteur de recherche n'indexerait pas mon usage détourné de ce terme en le prenant de manière erronée au sens propre.

Essayons d'être concret :
- la sémantique (X)HTML est impuissante à véhiculer ce type d'information.
- je peux évidemment fabriquer mon XML sur mesure... d'une portée limitée
- alors, pourquoi ne pas accepter les limites de l'état de l'art, et s'en tenir à des éléments tels que <b> et <i>, ou aux guillements bruts dans le texte, en sachant que pour l'instant, nous ne pouvons au mieux que permettre une restitution visuelle de ce type d'information ?

Google a peut-être bien quelque-chose à nous apprendre, là ;)

@Niko > "Enfin, ce que je considere comme acquis, c'est que les hx, sont plus fort que les td avec font size="5", je pense tout de meme que google classera différement le contenu de ces differents elements."

Tout le problème est que, quelque-soit la manière dont Google **indexe**, il lui reste encore à **classer**. Et que sa méthode de classement est basée prioritairement sur des données totalement étrangère à la sémantique du contenu : les backlinks en sont l'exemple le plus évident.

@ Laurent Denis
"Tout le problème est que, quelque-soit la manière dont Google **indexe**, il lui reste encore à **classer**. Et que sa méthode de classement est basée prioritairement sur des données totalement étrangère à la sémantique du contenu : les backlinks en sont l'exemple le plus évident."
Au risque de décevoir, je ne suis pas tout à fait d'accord sur cette affirmation.
On en revient à ce que je disais il y a peu, ne mélangeons pas référencement et positionnement ou si vous préférez :
indexer et classifier

Bien que la méthode, il est vrai soit basée sur les BL, ce qui est une abbération aprés lecture de l'aide Google, puisqu'il affirme que l'on ne doit pas cherché à developper de liens avec les autres sites mais bon, passons.....
Par contre, au sujet de la classification ou posionnement, il est vrai que les sites à fort PR seront avantagés par l'algo de Google, ce qui ne veut pas TOTALEMENT dire qu'un site sans PR ne pourras pas être mieux positionner qu'un à fort PR pour une requête commune.
Il vaut intégrer le Scoring qui lui est quand même un peu basé sur un esprit de sémantique, même si pour le moment ce n'est pas la sémantique stricte au sens du terme ou vous l'entendez.

Je pense donc que le positionnement d'un site est un mélange savant entre les BL et le scoring et tout le monde peut donc en tirer son épingle du jeu.
Un site à fort Scoring et BL, arrivera forcèment en tête d'affiche......

Concernant le scoring et les Mots-clé, je pense que Raphaël ne pourra pas le démentir aux vues des mots-clé qui lui ont été conseilé à la dernière Yoovi Dance.
Voici à mes yeux, une bonne méthode de Scoring et positionnement qui s'est développé à l'insu du premier concerné.
Comme quoi, il faut bien prendre en compte cette notion et arrêter un tout petit peu de focaliser sur les BL.

Les "backlinks" n'étaient en effet qu'un exemple (trop) commode, et maladroit car leur rôle semble évoluer à la baisse depuis quelques temps.

Mais quelle défintion précise donnerais-tu du "scoring" ?

Tiens, je suis étonné que pour une fois on me demande mon avis, mais bon j'accepte volontier....
A mes yeux le scoring pourrait se résumer comme cela :
Lorqu'un robot passe sur un site pour indexer la page, il va lire le code source.
Aprés avoir élimininé les mots sans importances comme : "de, nos, dans, les verbes conjugué, etc...."
Il va secouer le tout et en ressortir les mots les plus important, ceux qui présente un intêret réel pour son moteur, donc ceux qui sont succeptibles d'être recherchés par ses visiteurs.
Mais cela serait trop facile, il suffirait juste de répéter X Fois le même mot pour être premier pour cette requête.
C'est ici qu'intervient je pense ce que nous appelons courrament l'algoritme, qui inclue bien évidemment le scoring.

Comment se passe le scoring alors ?
Il faut prendre en compte l'algo du moteur concerné mais ici pour clarifier, nous allons faire une globalité.
Imaginons que Alsacreations veulent se positionner sur le terme : standards web.
Bien entendu, Raphaël répétera souvent ce terme sur sa page.
Le scoring est la méthode de calcul qui permet au moteur de calcuer un nombre de points pour ce terme et d'ainsi le classifier de pertinent ou moins pertinent par rapport aux autres sites.
Il existe donc dans l'algo une méthode de calcul (elle aussi tenu secrète) qui permet d'attribuer un score à chaque mot de la page.

Voici un exemple fictif (bien entendu) d'une méthode de calcul de scoring :
La balise title vaut 20%
La keywords vaut 15 %
(diminuant progressivement à chaque nouveau mots-clé)
Les Hx valent 10%
Les b,strong et em valent également 10%
Le premier p de la page vaut 8%
Les liens valent 7%
Tous les autres élément 5%

Pour calculer le score qu'obtient "standards web", le moteur effectuera donc le calcul en se basant sur la table que je viens de dérire et obtiendras disons :
standards web 74 %
Apprendre XHTML 56 %
CSS facile 48 %

Il en déduira que le mot le plus pertinent de cette page est "standards web", il la classifiera donc avec ce terme.
Il la comparera avec toutes les autres pages répondant au même mot.
Il ajoutera les éléments supllémentaires de son Algo comme les BL,etc.....
Il positionnera la page la plus pertinente pour cette requête en tête de son moteur.

Bien sur entre en ligne de compte les éléments comme la place du mot clé au sein de la balise, de combien le mot clé est éloigné du Body, etc.....

Bon, sinon désolé pour ce post si il semble long, donc pour terminer et résumer je dirais simplement que le scoring, c'est le fait de calculer le taux de pertinence d'un mot au sein d'une page, ce qui permettra de mieux classer la page pour les réponses du moteur.

Je ne pense pas être spécialement compétent dans ce domaine qui est trop technique à mes yeux.
Par contre, pour ma part (mais cela n'engage que moi), je pense que cela est totalement différent.
Google lui même dit que les programmes AdSense,AdWords et le moteur Google, n'ont strictement rien à voir entre eux.
Alors peut-être que l'approche est similaire effectivement, du moins pour la recherche des mots-clé, mais les programmes de pub, ne doivent pas tenir compte du scoring et donc des balises à mon avis.
Il n'est pas rare de tomber sur des pages ou les pub n'ont rien à voir avec le sujet principal.
Surtout si il y a plusieurs sujet secondaires dans la même page.

Cela pourrait je pense se vérifier facilement en créant un page bidont avec une pub AdSense insérée dessus.
Il faudrait que toutes les balises importantes traitent de tomates et que les éléments p traitent de patates.
Bien sur avec des mots qui ne sont pas trop recherché dans le moteur.

Ainsi on pourrait je pense dire si c'est la même méthode qui est utilisé ou non, en comparant les pubs et en regardant sur quels mots clé la page se positionne le mieux.

un petit commentaire sur XHTML versus XML:

XHTML EST du XML

le XML defini simplement une syntaxe:
- qu'est ce qu'un tag
- tout tag ouvert doit etre fermé
- la valeur d'un attribut doit etre entre "
...

le schema (anciennement DTD) defini pour un langage (tel que xhtml) les tags, attributs et relation que l'on
peut utiliser dans la syntaxe xml

Dire que je fais du XML est vrai si je fais du XHTML (meme 1.0 transitional) mais c'est toujours incomplet
puisqu'il faut definir aussi le schema ou la DTD qui va avec, en particulier le namespace (ns) pour chaque tag
(xmlns="www.w3.org/1999/xhtml&quo...

@Salemioche : "XHTML EST du XML"

>> Humm, oui et non en fait. Ça dépend de l'emploi que l'on en fait :
- si tu le déclares en "text/html" (comme 99% des sites en XHTML actuels), il sera tout bêtement lu par les navigateurs comme du *vulgaire* HTML
- il faut le déclarer en application/XML pour qu'il soit *vraiment* perçu par les navigateurs comme du XML... or c'est rarement le cas en pratique.

@Raphael > Mais si beaucoup de sites déclare "leur XHTML en -- text/html --" en place de XML, peut-être est ce en premier temps qu'ils n'en ont pas l'utilité, voir qu'ils ne savent pas la possibilité que leur offre le XML ... Et en "extrapolant" la situation, ne savent pas ce qu'est le XML ... (Mais bon là je pousse un zeste).
Personnellement, je citerais plutôt le manque d'utilité à faire lire le XHTML en XML que les deux autres possibilités.
Qu'en penses-tu ?

@Groumphy : "Personnellement, je citerais plutôt le manque d'utilité à faire lire le XHTML en XML que les deux autres possibilités."

>> Ben c'est surtout parce que les navigateurs anciens (dont IE6) ne comprennent pas le *vrai* XHTML

Commentaires clos