glibre Posté 27 Septembre 2005 Partager Posté 27 Septembre 2005 slt j'ai un serveur messagerie relativement surchargé par periode de pointe. ( environ 600 comptes users tres... actifs) j'arrive a avoir des load average enormes. 15:28:40 up 119 days, 20:51, 3 users, load average: 55.00, 50.27, 42.04 bon il fait pas mal de choses a lui tout seul: -antispam (qmailscanner + spamassassin) -antivirus (fprot) -POP/IMAP/SMTP avec MySql (Qmail / courier-imap) -webmail (IMP / apache / apachessl) c'est un biproc P4 2Gh avec 1Go de ram Ma question est: Y a t il des astuces pour maitriser ces surcharges... ? Optimisation de service ? j'ai pas envie de perdre mon uptime de 4 mois apache: MinSpareServers 10MaxSpareServers 20 StartServers 10 MaxClients 150 MaxRequestsPerChild 100 kernel avec SMP mail:/lib/modules# cat /boot/config-`uname -r` |grep SMPCONFIG_SMP=y Processeur: mail:/lib/modules# cat /proc/cpuinfoprocessor : 0 vendor_id : GenuineIntel cpu family : 15 model : 2 model name : Intel® Pentium® 4 CPU 2.60GHz stepping : 9 cpu MHz : 2593.558 cache size : 512 KB fdiv_bug : no hlt_bug : no f00f_bug : no coma_bug : no fpu : yes fpu_exception : yes cpuid level : 2 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe cid bogomips : 5177.34 processor : 1 vendor_id : GenuineIntel cpu family : 15 model : 2 model name : Intel® Pentium® 4 CPU 2.60GHz stepping : 9 cpu MHz : 2593.558 cache size : 512 KB fdiv_bug : no hlt_bug : no f00f_bug : no coma_bug : no fpu : yes fpu_exception : yes cpuid level : 2 wp : yes flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe cid bogomips : 5177.34 Des suggestions? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Dan Posté 27 Septembre 2005 Partager Posté 27 Septembre 2005 Salut Glibre, Il aurait été intéressant d'avoir aussi les % de CPU utilisé. Parce qu'ils permettraient de déterminer si c'est le CPU ou le disque qui freine. A mon avis ce sera plutôt le disque... mais il vaut mieux vérifier. De toutes manières, toute modification te fera perdre ton uptime Lien vers le commentaire Partager sur d’autres sites More sharing options...
glibre Posté 27 Septembre 2005 Auteur Partager Posté 27 Septembre 2005 (modifié) 17:03:14 up 119 days, 22:26, 3 users, load average: 47.93, 56.40, 55.84315 processes: 312 sleeping, 3 running, 0 zombie, 0 stopped CPU states: 4.2% user, 3.8% system, 0.0% nice, 76.7% idle Mem: 904188K total, 897840K used, 6348K free, 44388K buffers Swap: 1003960K total, 109344K used, 894616K free, 635516K cached Modifié 27 Septembre 2005 par glibre Lien vers le commentaire Partager sur d’autres sites More sharing options...
destroyedlolo Posté 27 Septembre 2005 Partager Posté 27 Septembre 2005 Un load important indique que ta machine a un nombre eleve de processes qui demandent a tourner simultanement ou dans la meme perriode d'echantillonage. Ca ne signifie pas forcement qu'elle est surchargee. En clair, tu dois verifier que : - tu n'as pas le CPU a 100% (si c'est le cas, ca signifie qu'il faut l'upgrader), - tu n'as pas de disque a 100% (disque pas assez rapide ou pas assez de memoire si c'est le disque de swap) - que tu n'as pas de process 'stopped'. Je ne me souviens plus sous Linux, mais sous NetBSD, ca indique que tu as des processes eligibles pour tournee mais qui reste stoppe car leur memoire est swappee : tres mauvais Lien vers le commentaire Partager sur d’autres sites More sharing options...
glibre Posté 27 Septembre 2005 Auteur Partager Posté 27 Septembre 2005 merci, c'est bien ce que je me disais... surtout qu'apres avoir redemarré mon serveur, j'ai tojours un load elevé, puiqu'il traite les 200 et kelkes messages dans la queue... mais bon, ca me semble enorme quand meme ;( Lien vers le commentaire Partager sur d’autres sites More sharing options...
Dan Posté 27 Septembre 2005 Partager Posté 27 Septembre 2005 A la lecture des chiffres, je remarque une anomalie: 4.2% + 3.8% + 76.7 % ne font pas 100% ... où est le reste ? Mais globalement, avec plus de 70% de "idle time", ton problème est plutôt du côté du disque. L'examen de ton swap démontre que tu as plus de 100Mb de "swappés" ce qui fait beaucoup d'accès disque inutiles. C'est donc qu'il te manque de la RAM. Passer ton serveur à 1,5 voire 2Gb aiderait certainement à lisser ces valeurs mais te ferait perdre ton uptime. Hé hé, je te l'avais dit ! Dan Lien vers le commentaire Partager sur d’autres sites More sharing options...
glibre Posté 27 Septembre 2005 Auteur Partager Posté 27 Septembre 2005 erf, dsl, le top change tellement souvent que j'essai de mettre une valeur coherente avec ce que j'ecris a l'instant t ouep pour la ram... en parlant de ca, pour ou contre l'activation de la Highmem avec 1 Go de ram? Lien vers le commentaire Partager sur d’autres sites More sharing options...
glibre Posté 29 Septembre 2005 Auteur Partager Posté 29 Septembre 2005 bon, pour la petite histoire, rien a voir avec les process ou autre. meme apres avoir mis 2G de ram et compiler le kernel 2.4.27 avec la gestion 4G de ram, le serveur lag aussi. en fait, il est en cluster heartbeat avec un autre, et depuis Lundi ou Mardi, il lag... (tout etait clean depuis decembre 2004) Or des que je tombe l'ip virtuelle... plus de problemes quelqu'un a deja eu le probleme ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
ams51 Posté 9 Octobre 2005 Partager Posté 9 Octobre 2005 Salut... J'ai un pb similaire (load average élevé et machine lente). En cherchant sur google, je tombe ici Je n'ai qu'une question : C'est quoi un "cluster heartbeat" ? edit : pour info j'ai trouvé la source de mon pb (un pb sur un script)... mais la réponse à la question m'interesse toujours Lien vers le commentaire Partager sur d’autres sites More sharing options...
glibre Posté 9 Octobre 2005 Auteur Partager Posté 9 Octobre 2005 slt un cluster heartbeat est un cluster de service (pour mon cas ici les protocoles mail ) permettant qu'en cas d'indisponnibilite du serveur primaire, le secondaire prend le relais. on appelle cela heartbeat car: - le soft qui gere cela se nomme comme ca - cela s'appuie sur une prise de poul par packet UDP les serveurs (nodes) du cluster verifient si les uns et les autres sont UP ou pas, et transferent l'adresse IP du noeud sur un serveur selon le cas. je ferai un tuto sur mon site quand j'aurais un poil plus de temps c'est relativement simple a mettre en place. Si ca t'interesse: http://linux-ha.org/HeartbeatProgram Pour ce qui est de mon prob... toujours pas resilu, et ne sais donc pas d'ou cela vient ;( Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant