Structure et contenu

L’une des raisons les plus courantes est liée à la structure et au contenu d’une page web. Par exemple, une page qui demande à l’utilisateur de remplir un formulaire peut ne pas être indexable. Idem pour une page qui utilise du « contenu dynamique » (Flash, Javascript, trames ou URL générées de façon dynamique). Si vous vous demandez si tel peut être le problème de votre site, essayer de visualiser votre site via un outil tel que Lynx (text browser), ou bien un autre outil de type « browser » en neutralisant (coupant) les contenus Javascript et Flash, qui vous indiquera si tout votre contenu est accessible ou non.

Si votre site contient beaucoup d’images, assurez-vous que vous décrivez bien le contenu principal de chaque image dans le texte. Non seulement cela permet aux moteurs de recherche de l’indexer correctement, mais cela rend aussi l’image accessible aux utilisateurs déficients visuels. Vous pouvez aussi utiliser du « alt text » pour l’image et faire des dossiers (files names) descriptifs, comme le montre l’exemple suivant (qui représente l’image et le logo d’une société du nom de « Buffy’s House of Pies’) :

<img src= ‘’ buffyshouseofpies.jpg “ alt=”Welcome to Buffy’s House of Pies ! ‘’>

URLs

Une autre cause de problème peut être l’URL lui-même. S’il contient des parties IDs ou plusieurs paramètres, ou s’il est redirigé plusieurs fois, Google peut ne pas être capable de l’indexer.

Serveur et Réseaux

Certains serveur et réseaux peuvent bloquer notre accès à certaines pages de vos sites. En utilisant les outils disponibles sur Google’s Webmaster Central, ceux qui publient peuvent voir une liste de leurs pages auxquelles Google n’a pas accès. Pour en savoir plus sur le Webmaster Central, voir page 13.

Protocoles d’exclusion pour Robots

Il s’agit d’un standard technique qui peut aussi de temps en temps bloquer des pages : l’utilisateur « dit » aux moteurs de recherches de ne pas indexer le contenu de leur site (voir page 7). Si votre site n’apparaît pas dans les résultats de recherche Google, vérifiez que l’indication robots.txt ou un meta tag ne bloque pas l’accès.

Contrôler les indexations Google

Chaque producteur de contenu vise un but différent dans ce qu’il publie sur Internet. Certains journaux par exemple, autorisent un accès libre à des articles récents, mais demandent un abonnement payant pour accéder à leurs archives. Certains veulent être visibles sur tous les supports (par exemple Google Mobile, Google Images, etc…) mais d’autres seulement dans les résultats classiques des moteurs de recherche.

Les moteurs de recherches respectent ces volontés, après tout, il s’agit de leur contenu. Mais nous ne lisons pas dans les pensées, aussi est-il vital que les webmasters nous indiquent comment ils souhaitent être indexés. Ceci peut être fait via le Protocole d’Exclusion Robots, une technique qui a fait ses preuves et permet d’indiquer quelles parties du site sont à explorer ou non, quelles parties doivent être visibles dans les résultats de recherches."

A suivre

Illustration Cécémel