Début juin est née une initiative des 3 grands moteurs de recherche (Bing, Yahoo et Google), destinée à inciter les responsables de sites internet à structurer leur contenu.
Il s’agit pour eux de promouvoir l’utilisation des métadatas (microdata, microformats et RDFa dans ce cas) en généralisant leur utilisation à tous les types d’informations d’une page web.
Oui, super mais… ça sert à quoi ?
Les moteurs ont de plus en plus de travail et malgré des optimisations (algorithmes, temps de réponse, délais de mise à jours etc.), il leur est de plus en plus difficile d’améliorer un point : la bonne compréhension des contenus.
De même, les pages sont tellement nombreuses et l’information délivrée tellement riche qu’il devient compliqué pour un moteur de bien la présenter dans ses pages de résultats.
Une initiative similaire avait été initiée avec les sitemap xml, des fichiers destinés aux robots indexeurs, qui listent l’ensemble des pages web d’un site, les classent les unes par rapport aux autres, mentionnent les dates de mises à jours etc. pour éviter, au bout du compte, aux moteurs de découvrir tout seul toutes les pages d’un site.
L’initiative schema.org, des 3 “grands du web”, propose donc de découper l’information vue sur une page en “entités” pour mieux l’intégrer, mieux l’indexer. Ces entités sont liées à des type d’informations comme les personnes, les organisations, les avis, les lieux, les évènements etc.
Concrètement, tout se passe dans des balises HTML. Ainsi, de manière invisible pour l’internaute, un simple bloc de texte lié à un évènement pourra indiquer bien plus clairement au moteur de recherche de quoi il s’agit exactement : catégorie de l‘évènement, organisateur, localisation exacte, durée, url officielle, image principale d’illustration et bien plus !
Et pour le tourisme ?
Vu de près les schémas semblent vraiement faits pour ce domaine d’activité.
On trouve notamment des schéma pour décrire :
- Un Office de Tourisme
- Un Restaurant
- Un Avis
- Une Offre
Le risque est de devoir dupliquer une partie du contenu : écrire pour les moteur d’un côté et écrire pour les internautes (les moteurs préfèrent voir “2011-09-01T20:00” que “le 1er septembre à 20h”.).
Cependant, dans le cas de pages conçues exclusivement avec des données issues de SIT ça ne devrait pas compliquer la tâche des producteurs mais plutôt celle des développeurs.
L’avantage est de faire profiter les moteurs d’un niveau de qualification de la donnée proche de ce qu’offrent les interfaces des SIT. Cela pourra être un vrai avantage dans l’optimisation du référencement naturel. Les métadatas liées au (x)html existent depuis un certain moment et Google les utilise déjà pour reprendre des prix, des notes, des avis et des coordonnées GPS afin de faciliter la lecture des résultats des recherches “à proximité”.
A l’avenir ?
Fournir des pages web qui présentent quelques “entitiées” issues des “schémas” devrait permettre aux contenus web d‘être plus facilement réutilisés par d’autres sites, par des applications mobiles ou par des extensions de navigateurs. Le schéma des “personnes”, proche du microformat hcard existe depuis longtemps et permet à certaines pages web d‘être transformées en cartes de visites électroniques (vcard) en utilisant une simple extension pour Firefox.
Les schémas pourraient répondre partiellement à quelques problématiques du moment : mise en place laborieuse de l’open data, difficile valorisation des SIT, manque de visibilité par rapport à des sites privés…