Gérer plus facilement les logs

Afin de faciliter la gestion des fichiers « logs », je vous propose quelques petites astuces, sous forme de question réponses, qui vous aideront peut être à exploiter plus efficacement vos fichiers « logs ».

Un fichier log, c’est quoi ?

Un fichier log est un fichier journal au format texte qui pour chaque page vue sur votre site (pour le cas d’un fichier log httpd) enregistre un certain nombre d’information (adresse IP, fichier atteint (hit), date / heure, …).
Ces informations sont stockées sur une ligne. Chaque ligne représente un accès à l’une des pages de votre site.

Comment lire un fichier log ?

Tout simplement en ouvrant un éditeur de texte standard comme notepad.

Quels sont les différents utilisations de fichiers log ?

- Le fichier error_log (visible sur serveur dédié) permet de voir les problèmes d’accès à vos sites (robots.txt manquant, fichier image non trouvé, page inconnue, « Directory index forbidden by rule »,…).
- Le fichier acces_log (accès à l’admin de votre serveur dédié) permet de voir les accès à votre manager servant à la gestion de votre dedié (OVHM pour les dédiés localisés chez OVH).
- Les fichiers log httpd permettent d’avoir la liste des accès aux pages d’un site web.

Pourquoi utiliser un analyser de log httpd ?

Lorsque vous ouvrez votre fichier log, celui-ci contient un certain nombre de lignes. Ceci est difficilement exploitable à l’état brut sauf par exemple pour connaître en détail la nature d’un accès sur votre site à un moment précis.

Il est donc nécessaire d’utiliser un analyseur de log afin d’avoir une vision plus globale de vos statistiques. L’analyseur va créer un rapport de statistiques en utilisant les données brutes.

Quelles sont les différences entre l’exploitation des logs stockés sur un site mutualisé et sur serveur dédié ?

Sur un serveur dédié, vos fichiers logs httpd correspondant à tous les sites stockés sur votre dédié sont placés dans le répertoire /home/logs_httpd/. Ces fichiers se nomment de la façon suivante : nomdevotresite-acces_log (ceci peut être changé dans la configuration Apache).
Ce fichier texte est ensuite compressé automatiquement avec l’extension .gz : nomdevotresite-acces_log.gz. Puis lorsqu’un nouveau fichier .gz est créé l’ancien est renommé en acces_log.1. L’ancien acces_log.1 est renommé en acces_log.2 et ainsi de suite.
Vous pouvez limiter ou non le nombre de fichiers générés afin de gérer l’espace disque occupé par ces fichiers logs.
Ensuite les logs sont utilisé pour générer des rapports de statistiques avec un analyseur de logs installé sur serveur web. Webaliser et Awstats sont très utilisés. Ils permettent de créer des rapports souvent sous format html donc directement visible par un accès avec votre navigateur.
Il suffit d’appeler le repertoire de statistiques correspondant à votre site (http://www.votresite.com/stats).

Le nom du répertoire peut être changé (si vous utilisez Webalizer il suffit d’éditer le fichier webalizer.conf).

Pour un site en mutualisé, tout ceci est différent. Prenons l’exemple d’Ovh qui stocke les accès à votre site dans un fichier. Chaque fichier généré représente une journée. Le nom du fichier est sous le format suivant :
votrenomdesite_com-JJ-MM-AA_log_AAAAMMJJ_gz.txt

- La 1ère différence c’est l’accès à ses fichiers logs, (en prenant toujours l’exemple d’OVH) vous devez vous loguer sur une page OVH avec un login/mot de passe qui vous aura été donné au moment de l’inscription à un service d’hébergement OVH.Ensuite vous accéder uniquement à ces fichier logs par le web. Ces fichiers sont classés par mois. Vous devez cliquez sur le mois concerné puis sur le fichier log voulu.

Ensuite vous pouvez le consulter en ligne ou le sauvegarder dans un fichier texte (Fichier/Enregistrer sous de votre navigateur).

- La 2ème différence avec un serveur dédié c’est la limitation dans le nombre de fichier logs. Une fois la limitation atteinte alors les anciens fichiers logs sont effacés. Vous devez donc sauvegarder vos « anciens » logs sur votre disque dur avant qu’ils soient effacés.

- La 3ème différence c’est l’analyseur de logs utilisé. Toujours dans le cas d’OVH c’est URCHIN. Cela peut varier suivant l’hébergeur. Vous ne pouvez donc pas choisir votre analyseur de logs.
Cependant il existe une possibilité, une alternative permettant d’analyser soi même ses fichiers logs.
C’est là dessus que nous allons maintenant insisté en répondant à la question suivante :

Comment analyser mes logs de mon site (mutualisé) avec un autre analyseur de logs que celui imposé par mon hébergeur ?

Pour cela il suffit d’acheter un logiciel analyseur de logs (Webtrends est la référence mais très coûteux) ou d’en télécharger un (cf http://www.rafasoft.com/directory/internet/ sur cette page vous trouverez un grand nombre d’analyseur de logs dont certains sont gratuits).
Il faut spécifier à votre logiciel analyseur de logs les fichiers à analyser. Il est alors plus simple d’avoir un nombre de fichiers le plus réduit possible.
Pour cela il est préférable de concaténer vos x fichiers logs quotidiens en x fichiers logs mensuels. Plutôt que d’avoir 365 fichiers pour une année de statistiques vous en aurez seulement 12.
Vous pouvez utiliser le freeware Concat 1.4FR (http://perso.wanadoo.fr/fricotin/) pour concaténer vos fichiers.
Certains analyseurs de logs acceptent les fichiers .gz ou .zip. Vous pouvez donc dans ce cas compresser vos fichiers logs.

Pour ceux qui sont sur serveurs dédiés et qui veulent aussi utiliser un logiciel d’analyse de logs, il leur faudra récuperer les fichiers logs sur le serveur à l’aide d’un logiciel FTP ou SFTP (WINSCP3 est un logiciel freeware que je vous recommande surtout pour les nostalgique de Norton Commander) pour les mettre sur leur disque dur.