Le cœur du système Protocole d’Exclusion pour Robots est un simple dossier texte appelé robots.txt qui est utilisé depuis des années. Avec robots.txt vous avez la possibilité de contrôler plusieurs niveaux d’accès, depuis l’ensemble du site jusqu’à des répertoires individuels, des pages de type spécifiques, ou même des pages seules.

Il y a des pages de mon site que je ne veux pas indexer. Comment puis-je les empêcher d’apparaître dans les résultats de recherche Google ?

Globalement, la plupart de ceux qui ont un site veulent que l’ordinateur Googlebot ait accès à leur site et que leurs pages puissent être trouvées par les utilisateurs de Google. Cependant, vous pouvez souhaiter ne pas indexer certaines pages : par exemple des répertoires internes (internal logs) ou des articles d’actualité qui demandent un accès payant.

Vous pouvez donc exclure ces pages de l’index Google en créant simplement un dossier robots.txt et en le plaçant dans la racine de la section administration du serveur. Créer ce type de fichier est très efficace et donne un moyen de contrôle précis sur l’accès des moteurs de recherches sur un site.

Par exemple, si un webmaster veut empêcher son répertoire interne (internal logs) d’être indexé, le fichier robots.txt devra contenir :

User-Agent : Googlebot (l’utilisateur précise ainsi que ce message concerne uniquement Googlebot).

Disallow : /logs/ La ligne spécifiant le rejet indique à Googlebot de ne pas accéder au sous répertoire concerné de votre site. Le propriétaire du site a indiqué qu’aucune des pages de ce répertoire (log directory) ne doit apparaître dans les résultats de recherche.

La majorité des moteurs de recherche liront et obéiront aux instructions que vous placerez dans robots.txt, et vous pouvez même indiquer des règles différentes en fonction des différents moteurs de recherches.

Meta tags : pour un contrôle en finesse

En plus du robots.txt, vous pouvez utiliser les meta tags pour robots afin de préciser les choses par page unique. Pour ce faire, il vous suffit d’ajouter un meta tag spécifique à une page HTML. L’un dans l’autre, robots.txt et meta tag vous offrent la possibilité de contrôler les accès relativement facilement.

Il y a un article en particulier sur mon site qui doit n’être accessible qu’aux utilisateurs enregistrés. Comment puis-je l’exclure des résultats de recherche Google ?

Pour faire cela, placez simplement un meta tag NOINDEX dans la section de tête de l’article. Cela donnera quelque chose du genre :

<html>

<head>

<meta name= ‘’googlebot’’content=’’noindex’’>

Ceci arrête l’indexation de Gogle sur le dossier.

Néanmoins, dans certains cas de figure, vous pouvez souhaiter que Google indexe quand même ces pages (par exemple une archive de journal avec un accès payant) ; gardez à l’esprit que vous pouvez le faire via certains services Google spécifiques tel News Archive Search, qui indexera l’article en indiquant clairement que son accès est payant."

A suivre

Billets en rapport