Aller au contenu

Où sont les bots ?


Sujets conseillés

Bonjour à toutes et tous.

Je travaille dans une Bu et nous avons exporté tout notre catalogue (un catalogue de bibliothèque n'est en général pas crawlable) en une arborescence web que les bots peuvent crawler, justement. Ce catalogue est là : http://catalogue.univ-angers.fr/

Cette arborescence est exposée sur un serveur apache, avec un sitemap propre et ok selon Google Webmasters Tools.

Et les bots Googe ont bien trouvé et le sitemap, et l'arborescence, puisqu'ils indexent les pages en question.

Mais (car il y a un mais) seule une toute petite part de l'arborescence a été indexée (17000 URLs là où nous en exposons 400000), d'une part ; et les bots passent très rarement, d'autre part (les statistiques de Google Webmasters Tools montrent une activité très très pépère de la part des bots).

Donc (vous me voyez venir) : comment puis-je faire pour accélérer la cadence et donner un peu de coeur à l'ouvrage aux bots ?

Merci par avance de votre aide et de vos conseils.

Lien vers le commentaire
Partager sur d’autres sites

Le crawl de Google dépend de plusieurs facteurs combinés :

- d'une part de la possibilité de crawler facilement ton site => vérifie les temps de téléchargement communiqués par Google dans GWT. Par ailleurs, regarde les messages d'erreur renvoyés par tes pages et éventuellement présents dans GWT. Regarde aussi dans la zone message la présence d'un "votre site présente un nombre anormal d'urls". Et vérifie toi même ton arborescence à l'aide d'un outil type XENU

- la qualité et l'importance des pages pour son index : faire la chasse aux pages trop similaires, trop vides de contenus, et aux pages avec un pagerank interne très faible. Vérifie au passage la profondeur de tes pages

- la fraicheur ensuite (inutile de crawler souvent des pages qui ne changent jamais, et/ou qui ne sont pas très importantes...)

Enfin, intéresse toi aux caractéristiques des pages non crawlées : cette recherche te permettra probablement de mettre le doigt sur une raison précise qui empêche un crawl intégral de ton site.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

J'ai peut-être mal regardé, mais je vois un moteur de recherche, pas vraiment un site. En dehors du sitemap, y a-t-il un lien vers l'arborescence dont tu parles ?

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

J'ajoute un critère à ceux listés par Cariboo, la popularité.

Pour avoir beaucoup de pages indexées rapidement, il est préférable d'avoir un site populaire (lien entrant / backlink)

Lien vers le commentaire
Partager sur d’autres sites

Merci pour vos réponses et suggestions.

L'arborescence d'exposition est là : http://catalogue.univ-angers.fr/OPD01/

Quelque chose m'échappe : avant d'exporter tout notre catalogue (les bots ne peuvent y entrer, il faut que nous sortions les notices), nous avions fait cette opération sur un sous-ensemble de notre catalogue (5% environ) qui a été lui immédiatement "scanné" dans son entier.

Pourquoi est-ce que cela ne marche pas avec un volume plus important ?

Pour la popularité, elle ne peut pas être importante puisque ces données apparaissent seulement au grand jour maintenant.

Lien vers le commentaire
Partager sur d’autres sites

Google n'apprécie pas des pages qui ne sont manifestement pas faites pour des humains. Je comprends bien que c'est lié à la structure de la bibliothèque, mais il faudrait leur donner plus de substance (texte expliquant cette section de la classification) et éventuellement regrouper différents niveaux de la classification sur une même page.

Un autre problème est qu'une fois qu'on est sur la page d'un document comme [i]http://catalogue.univ-angers.fr/OPD01/05/06/10/00/OPD01.000110506.html, les liens vers l'auteur ou la collection sont des liens JavaScript, inefficaces pour l'indexation par les robots. Pour la page d'un auteur, une adresse telle que [i]http://catalogue.univ-angers.fr/F/BV8P5ARR6SIH1XHAJR8RTX9C8YDH3LNM4NY7S1DTCCUK5DVP42-05845?func=find-acc&acc_sequence=000266883 n'est pas efficace non plus.

Le site a manifestement été conçu sans penser au référencement. Si son référencement est important pour vous, vous trouverez de nombreuses informations de base dans la partie Publications sur le référencement de ce site. Bonne lecture. ;)

Jean-Luc

Lien vers le commentaire
Partager sur d’autres sites

La similitude entre les pages est certainement le premier facteur de rejet par les bots. Ainsi, les pages de résultats de recherche d'un moteur interne sont dépréciées depuis plus de cinq ans. Il est même recommandé de ne pas les indexer du tout !

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...