Aller au contenu

Plantage dedie ovh


noelonline

Sujets conseillés

Suite a divers deboires, j'ai reussi a redemarrer un serveur ovh mal en point, mais il reste une instabilité chronique, qui plante le serveur 2-3 fois par semaine...

je soupconne fortement mysql d'en être à l'origine...

mais des que je fais un mysqlcheck -r -A le serveur commence le travail puis s'arrete en route obligeant a un ctrl-c et a un reboot...

j'ai rapatrié le /tmp dans /home/tmp ca a rien changé... d'ailleur le serveur est tres peu sollicité donc je m'y attendais un peu.

au moment des crash j'ai sur mrtg un pic sur l'I/O du HD à pres de 5M en continu tout le temps du plantage... (contre 400k max en dehors...)

j 'avais checké le disk sans resultat...

une idée ?

Merci.

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Si tu veux réparer la (les) base(s) de données, le mieux est :

- d'arrêter mysql (obligatoire !)

- lancer "myisamchk --force --recover *.MYI" dans chaque sous-répertoire de mysql

- relancer mysql une fois terminé.

Dan

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Si tu veux réparer la (les) base(s) de données, le mieux est :

- d'arrêter mysql (obligatoire !)

- lancer "myisamchk --force --recover *.MYI" dans chaque sous-répertoire de mysql

- relancer mysql une fois terminé.

Dan

oui je l'avais fait, mais ca n'a rien resolu...

Lien vers le commentaire
Partager sur d’autres sites

Bonjour

mais des que je fais un mysqlcheck -r -A le serveur commence le travail puis s'arrete en route obligeant a un ctrl-c et a un reboot...

Tu peux présciser un peu ?

si tu le lances en arrière plan (ajout de '&' à la fin) et que tu lances un top, quelle est la consommation processeur du processus ? Il est dormant ? zombi ? ou il fait tout simpelmetn "ramer" le serveur parce qu'il a beaucoup de boulot ?

Lien vers le commentaire
Partager sur d’autres sites

quand je le lance il me liste les tables en me disant OK a chaque fois et d'un coup il s'arrete (de facon aleatoire sur une table ou une autre...)

et il reste comme ca avec plus rien... si je fais ctrl-C je reprend la main mais a la moindre demande sur la base j'ai plus d'acces ssh...

j'ai pas essayé en arriere plan, j'essaierai cette nuit, si je plante le serveur a cette heure je vais me faire assassiner

Merci, 

Noel

Lien vers le commentaire
Partager sur d’autres sites

Bonjour

Tu peux présciser un peu ?

si tu le lances en arrière plan (ajout de '&' à la fin) et que tu lances un top, quelle est la consommation processeur du processus ? Il est dormant ? zombi ? ou il fait tout simpelmetn "ramer" le serveur parce qu'il a beaucoup de boulot ?

je l'ai lancé avec un top ouvert sur une session et un mysqlcheck dans une seconde...

le processus est autour de 5 a 10% de conso jusqu'au 'plantage'

a partir de ce moment, la fenetre top arrete de se rafraichir, mysqlcheck s'arrete sur une ligne, avec un ctrl-c j'ai a nouveau l'invite mais quelque soit la commande elle n'est pas executée... m'obligeant a un hard reboot

Lien vers le commentaire
Partager sur d’autres sites

C'est vraiment bizarre :-/

Tu pourrais mettre le resultats d'un ps -ax stp ? Peut etre que tu as un porcessus résidant qui fait planter les autres...

Tu as lancé un fsck pour vérfieir la consistence de ta partition contenant les données mysql ?

Lien vers le commentaire
Partager sur d’autres sites

Pour MRTG voir ns2660.ovh.net/mrtg les pics du hd correspondent au plantages...

y a des graphes qui deconnent donc on voit pas l'usage cpu... mais les 2h ou on levoyait apres l'install y avait rien de space...

[root_AT_ns2660 root]# ps -ax

PID TTY STAT TIME COMMAND

1 ? S 0:04 init [3]

2 ? SW 0:00 [keventd]

3 ? SWN 0:00 [ksoftirqd_CPU0]

4 ? SWN 0:02 [ksoftirqd_CPU1]

5 ? SW 0:00 [kswapd]

6 ? SW 0:00 [bdflush]

7 ? SW 0:00 [kupdated]

8 ? SW< 0:00 [mdrecoveryd]

9 ? SW 0:09 [kjournald]

20561 ? SW 0:11 [kjournald]

25039 ? S 0:00 /usr/sbin/sshd

25751 ? S 0:00 syslogd -m 0

15674 ? S 0:00 klogd -2

18425 ? S 0:00 named -u named

23065 ? S 0:00 named -u named

10869 ? S 0:00 named -u named

8865 ? S 0:00 named -u named

28436 ? S 0:00 named -u named

14760 ? S 0:00 named -u named

13256 ? S 0:00 xinetd -stayalive -pidfile /var/run/xinetd.pid

14269 ? S 0:00 qmail-send

17494 ? S 0:00 /usr/local/bin/multilog /var/log/qmail

23597 ? S 0:00 tcpserver -H -R -c100 0 pop-3 /var/qmail/bin/qmail-po

2147 ? S 0:00 tcpserver -H -R -x /etc/tcp.smtp.cdb -c100 -u503 -g50

24931 ? S 0:00 /usr/local/bin/tai64n

7833 ? S 0:00 qmail-lspawn ./Maildir/

15365 ? S 0:00 qmail-rspawn

7747 ? S 0:00 qmail-clean

24659 ? S 0:00 /usr/local/apache/bin/httpd

9339 ? S 0:00 /usr/lib/courier-imap/libexec/couriertcpd -address=0

3371 ? S 0:00 /usr/lib/courier-imap/sbin/courierlogger imapd

19712 ? S 0:00 crond

6296 ? S 0:00 /bin/sh /usr/bin/safe_mysqld --datadir=/var/lib/mysql

30573 ? S 0:00 /usr/sbin/atd

6582 ? S 0:00 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

15174 ? SL 0:00 watchdog

12556 ? S 0:00 /usr/local/clockspeed/bin/clockspeed

12179 ? S 0:00 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

12557 ? S 0:03 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

12117 ? S 0:00 /usr/bin/perl /usr/libexec/webmin/miniserv.pl /etc/we

9452 tty1 S 0:00 /sbin/mingetty tty1

8578 tty2 S 0:00 /sbin/mingetty tty2

8797 tty3 S 0:00 /sbin/mingetty tty3

10503 tty4 S 0:00 /sbin/mingetty tty4

13757 tty5 S 0:00 /sbin/mingetty tty5

17245 tty6 S 0:00 /sbin/mingetty tty6

3672 ? S< 0:00 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

27113 ttyS0 S 0:00 /sbin/agetty ttyS0 9600

16034 ? SN 0:00 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

786 ? S< 0:00 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

18273 ? S 0:00 /usr/local/apache/bin/httpd

28070 ? S 0:01 /usr/local/apache/bin/httpd

12347 ? S 0:01 /usr/local/apache/bin/httpd

32319 ? S 0:00 /usr/local/apache/bin/httpd

32315 ? S 0:00 /usr/local/apache/bin/httpd

19252 ? S 0:01 /usr/local/apache/bin/httpd

6886 ? S 0:00 /usr/local/apache/bin/httpd

5263 ? S 0:01 /usr/local/apache/bin/httpd

1565 ? S 0:00 /usr/local/apache/bin/httpd

24915 ? S 0:00 /usr/local/apache/bin/httpd

28991 ? S 0:00 /usr/local/apache/bin/httpd

23771 ? S 0:00 /usr/local/apache/bin/httpd

9494 ? S 0:00 /usr/local/apache/bin/httpd

25305 ? S 0:01 /usr/local/apache/bin/httpd

8245 ? S 0:00 /usr/local/apache/bin/httpd

12351 ? S 0:00 /usr/local/apache/bin/httpd

22079 ? S 0:00 /usr/local/apache/bin/httpd

28532 ? S 0:00 /usr/local/apache/bin/httpd

6870 ? S 0:00 /usr/local/apache/bin/httpd

21073 ? S 0:00 /usr/local/apache/bin/httpd

17989 ? S 0:00 /usr/local/apache/bin/httpd

32660 ? S 0:00 /usr/local/apache/bin/httpd

22349 ? S 0:00 /usr/local/apache/bin/httpd

30601 ? S 0:00 /usr/local/apache/bin/httpd

14606 ? S 0:00 /usr/local/apache/bin/httpd

5361 ? R 0:00 sshd: root_AT_pts/0

12483 ? S 0:00 /usr/local/apache/bin/httpd

31965 ? S 0:00 /usr/local/apache/bin/httpd

19746 ? S 0:00 /usr/local/apache/bin/httpd

548 pts/0 S 0:00 -bash

14421 pts/0 R 0:00 ps -ax

Peut tu nous envoyer une copie de ton my.cnf?

[mysqladmin]

password = xxxxxx

user = root

[mysqld]

set-variable = connect_timeout=20

set-variable = max_connections=100

skip-networking

set-variable = long_query_time=4

log-slow-queries = /var/log/mysql/slow-query.log

[safe_mysqld]

err-log = /var/log/mysql/info.log

Lien vers le commentaire
Partager sur d’autres sites

Merci...

Heuuu, il me semble que ce n'est pas très normal que tu aies autant de processus mysqld de lancés, en particulier le fait que tu aies des mysqld "normaux" (/usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql) et un mysql en mode safe (/bin/sh /usr/bin/safe_mysqld --datadir=/var/lib/mysql). Sauf erreur de ma part, c'est soit l'un soit l'autre non ? (Dan confirmera ou infirmera je pense...)

A chaud je dirais que le mieux serait d'essayer de tuer tous les process mysqld (y compris le safe), de faire un check des tables, et de relancer alors proprement le serveur...

Modifié par Jeromnimo
Lien vers le commentaire
Partager sur d’autres sites

Si, c'est normal d'avoir un process mysqd_safe ;)

Par contre, il faudrait dans l'ordre:

- arrêter apache avec "/etc/init.d/httpd stop"

- arrêter mysql avec "/etc.init.d/mysql stop"

- s'assurer qu'il ne reste plus aucun process mysqld ni httpd !! important

(les tuer avec kill -9 le cas échéant)

- redémarrer mysql (/etc/init.d/mysql start)

- lancer un myisamchk --force --recover

- redémarrer Apache (/etc/init.d/httpd start)

L'arrêt et redémarrage d'Apache évite aux visiteurs d'avoir une page avec une erreur mysql...

Lien vers le commentaire
Partager sur d’autres sites

bon je me suis dis que j'allais refaire un fsck... comme dans la machine y aun 2eme disque pas monté mais qui tourne bien, j'ai fais un fsck dessus... meme probleme qu'avec la verif des tables : perte de l'acces aux site, ctrl-c pour recuperer la main, 2minutes pour avoir a nouveau l'invite, et la premiere commande me fait perdre la main definitivement sans etre executee... reboot hard contraint...

pour ce qui est du nombre de process sql, tous les sites sont geres de facon dynamique pas sql, ce qui me pose un peu probleme aussi pour les myisamchk vu qu'il y avait environ 120 bases meme si j'en ai effaces une grosse trentaine hier ca fait encore beaucoup.. je vais continuer a ecraser les anciens clients aujourd'hui... je devrais tomber a 60...

Lien vers le commentaire
Partager sur d’autres sites

Peut etre un probleme materiel sur le controleur de disques dur ?

Tu as regarder du coté des messages noyau pour voir si tu n'avais pas un message d'erreur ? (inode corrompu, probleme d'acces matériel...Etc ?)

Lien vers le commentaire
Partager sur d’autres sites

Si, c'est normal d'avoir un process mysqd_safe ;)

Par contre, il faudrait dans l'ordre:

- arrêter apache avec "/etc/init.d/httpd stop"

- arrêter mysql avec "/etc.init.d/mysql stop"

- s'assurer qu'il ne reste plus aucun process mysqld ni httpd !! important

(les tuer avec kill -9 le cas échéant)

- redémarrer mysql (/etc/init.d/mysql start)

- lancer un myisamchk --force --recover

- redémarrer Apache (/etc/init.d/httpd start)

L'arrêt et redémarrage d'Apache évite aux visiteurs d'avoir une page avec une erreur mysql...

J'ai effectué cette procedure... arrivé au 3/4 de mes bases, gros ralentissement et plantage...

y avais pas d'acces http puisque pas d'apache, et pas d'acces sql... au moment du plantage...

bon j'ai fais un hard reboot mais le serveur a pas rebooter... j'ai 30 minutes à tuer... je vais me faire un café...

Modifié par noelonline
Lien vers le commentaire
Partager sur d’autres sites

suite des evenements :

J'ai refait un hard reboot

j'ai recommencé la procedure pour les bases restantes dont celle où ca a planté

ca a été au bout sans probleme...

en gros ca plante quand il y a de nombreux acces au disque... ca le fait sur hda et sur hdc

j'ai exporté toutes mes bases sans que ca plante

avec c'est plantage c'est compliqué de faire la sauvegarde du site...

je voulais recopier hda sur hdc mais bon vu que le moindre fsck fait tout planté...

Je suis preneur de tout conseil ;-) ou de tout avis

Lien vers le commentaire
Partager sur d’autres sites

Peut etre un probleme materiel sur le controleur de disques dur ?

je vous donne la suite des evenements pour aider a l'acquisition d'experience de chacun

voici donc le diagnostique d'ovh :

votre disque contient des erreurs :

MART Attributes Data Structure revision number: 10

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate 0x000f 058 055 006 Pre-fail Always - 94090900

3 Spin_Up_Time 0x0003 099 098 000 Pre-fail Always - 0

4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 0

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0

7 Seek_Error_Rate 0x000f 078 060 030 Pre-fail Always - 83848100

9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 11069

10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0

12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 118

194 Temperature_Celsius 0x0022 045 054 000 Old_age Always - 45

195 Hardware_ECC_Recovered 0x001a 058 055 000 Old_age Always - 94090900

197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0

198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0

199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0

200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0

202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0

Notez que le disque défaillant ne sera plus accessible une fois le changement du disque effectue.

étant donné que le 2nd disque plante tout autant, j'ai demandé une verif du controleur avant le remplacement du disque...

voila...

Si vous avez des conseils je prends toujours...

si c'est le disque je crois que je vais changer de serveur... pour un de la nouvelle gamme...

Modifié par noelonline
Lien vers le commentaire
Partager sur d’autres sites

hdparm -t ca me donne :

[root_AT_ns2660 home2]# hdparm -t /dev/hda

/dev/hda:

Timing buffered disk reads: 16 MB in 3.52 seconds = 4.55 MB/sec

[root_AT_ns2660 home2]# hdparm -t /dev/hdc

/dev/hdc:

Timing buffered disk reads: 20 MB in 3.15 seconds = 6.35 MB/sec

j'ai aussi fait un -i -I ca correspond bien aux caracteristiques des disques ST340014A et Maxtor 6E040L0 installés dans ma machine (c'est une calamité les ST340014 et 15... j'ai jamais eu autant de disques qui ont claqués...)

dans le manager V3 le maxtor est indiqué en erreur mais il est pas monté... quand je le monte il repasse en OK (et puis 1/4 d'h plus tard si je m'en sert pas il repasse en erreur) mais bon je le monte jamais de chez jamais...

Lien vers le commentaire
Partager sur d’autres sites

j'ai remarqué aussi pendant les 5-6h avant le plantage une courbe bizarre, ca le fait en ce moment, je m'attends a un plantage...

la memoire utilisée monte d'un coup et reste en palier...

http://ns2660.ovh.net/mrtg/ns2660.ovh.net_mem.html

top me donne ca :

2:18pm up 11:40, 2 users, load average: 0,00, 0,00, 0,00

78 processes: 77 sleeping, 1 running, 0 zombie, 0 stopped

CPU0 states: 0,0% user, 0,0% system, 0,0% nice, 100,0% idle

CPU1 states: 0,0% user, 0,1% system, 0,0% nice, 99,4% idle

Mem: 1023912K av, 995980K used, 27932K free, 0K shrd, 107280K buff

Swap: 522104K av, 140K used, 521964K free 161048K cached

PID USER PRI NI RSS SHARE A STAT %CPU %MEM TIME COMMAND

12894 nobody 9 0 6616 5500 NYI S 0,0 0,6 0:00 httpd

25117 nobody 9 0 6564 5484 NYI S 0,0 0,6 0:00 httpd

16582 nobody 9 0 6532 5492 NYI S 0,0 0,6 0:01 httpd

27140 nobody 9 0 6532 5492 NYI S 0,0 0,6 0:00 httpd

975 nobody 9 0 6520 5488 NYI S 0,0 0,6 0:00 httpd

18617 nobody 9 0 6508 5492 NYI S 0,0 0,6 0:00 httpd

8867 nobody 9 0 6492 5496 NYI S 0,0 0,6 0:00 httpd

21832 nobody 9 0 6484 5504 NYI S 0,0 0,6 0:01 httpd

23486 nobody 9 0 6448 5492 NYI S 0,0 0,6 0:00 httpd

13792 nobody 9 0 6244 5496 NYI S 0,0 0,6 0:00 httpd

8448 nobody 9 0 6244 5484 NYI S 0,0 0,6 0:00 httpd

13088 nobody 9 0 6172 5476 NYI S 0,0 0,6 0:00 httpd

4227 nobody 9 0 6168 5492 NYI S 0,0 0,6 0:00 httpd

11923 nobody 9 0 6056 5476 NYI S 0,0 0,5 0:00 httpd

13160 nobody 9 0 6056 5484 NYI S 0,0 0,5 0:00 httpd

25940 nobody 9 0 6052 5452 NYI S 0,0 0,5 0:00 httpd

et ps -ax :

[root_AT_ns2660 root]# ps -ax

PID TTY STAT TIME COMMAND

1 ? S 0:04 init [3]

2 ? SW 0:00 [keventd]

3 ? SWN 0:09 [ksoftirqd_CPU0]

4 ? SWN 0:02 [ksoftirqd_CPU1]

5 ? SW 0:16 [kswapd]

6 ? SW 0:00 [bdflush]

7 ? SW 0:06 [kupdated]

8 ? SW< 0:00 [mdrecoveryd]

9 ? SW 0:17 [kjournald]

11001 ? SW 0:32 [kjournald]

27593 ? S 0:00 /usr/sbin/sshd

16769 ? S 0:00 syslogd -m 0

14144 ? S 0:00 klogd -2

11884 ? S 0:00 named -u named

21623 ? S 0:00 named -u named

25632 ? S 0:01 named -u named

23897 ? S 0:01 named -u named

31699 ? S 0:00 named -u named

20638 ? S 0:00 named -u named

32263 ? S 0:00 xinetd -stayalive -pidfile /var/run/xinetd.pid

14108 ? S 0:00 qmail-send

21240 ? S 0:00 /usr/local/bin/multilog /var/log/qmail

19006 ? S 0:00 tcpserver -H -R -c100 0 pop-3 /var/qmail/bin/qmail-po

13818 ? S 0:00 tcpserver -H -R -x /etc/tcp.smtp.cdb -c100 -u503 -g50

29137 ? S 0:00 /usr/local/bin/tai64n

31557 ? S 0:00 qmail-lspawn ./Maildir/

31483 ? S 0:00 qmail-rspawn

7108 ? S 0:00 qmail-clean

23312 ? S 0:03 /usr/local/apache/bin/httpd

12614 ? S 0:00 /usr/lib/courier-imap/libexec/couriertcpd -address=0

24687 ? S 0:00 /usr/lib/courier-imap/sbin/courierlogger imapd

10856 ? S 0:00 crond

19589 ? S 0:00 /bin/sh /usr/bin/safe_mysqld --datadir=/var/lib/mysql

15475 ? S 0:00 /usr/sbin/atd

14007 ? S 0:00 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

7041 ? SL 0:04 watchdog

30562 ? S 0:01 /usr/local/clockspeed/bin/clockspeed

3854 ? S 0:01 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

30246 ? S 0:03 /usr/sbin/mysqld --basedir=/ --datadir=/var/lib/mysql

21402 ? S 0:03 /usr/bin/perl /usr/libexec/webmin/miniserv.pl /etc/we

1953 tty1 S 0:00 /sbin/mingetty tty1

3102 tty2 S 0:00 /sbin/mingetty tty2

4484 tty3 S 0:00 /sbin/mingetty tty3

12870 tty4 S 0:00 /sbin/mingetty tty4

26791 tty5 S 0:00 /sbin/mingetty tty5

14321 tty6 S 0:00 /sbin/mingetty tty6

9472 ? S< 0:01 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

24981 ttyS0 S 0:00 /sbin/agetty ttyS0 9600

15988 ? SN 0:00 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

28932 ? S< 0:00 /usr/local/etc/ncftpd/ncftpd -q /usr/local/etc/ncftpd

6055 ? SW 0:02 [kjournald]

13720 ? S 0:02 sshd: root_AT_pts/0

30026 pts/0 S 0:00 -bash

21832 ? S 0:01 /usr/local/apache/bin/httpd

18617 ? S 0:00 /usr/local/apache/bin/httpd

13792 ? S 0:00 /usr/local/apache/bin/httpd

8867 ? S 0:00 /usr/local/apache/bin/httpd

23486 ? S 0:00 /usr/local/apache/bin/httpd

16582 ? S 0:01 /usr/local/apache/bin/httpd

975 ? S 0:00 /usr/local/apache/bin/httpd

25117 ? S 0:00 /usr/local/apache/bin/httpd

27140 ? S 0:00 /usr/local/apache/bin/httpd

4227 ? S 0:00 /usr/local/apache/bin/httpd

13088 ? S 0:00 /usr/local/apache/bin/httpd

12894 ? S 0:00 /usr/local/apache/bin/httpd

11923 ? S 0:00 /usr/local/apache/bin/httpd

25940 ? S 0:00 /usr/local/apache/bin/httpd

9215 ? S 0:00 /usr/local/apache/bin/httpd

8448 ? S 0:00 /usr/local/apache/bin/httpd

13160 ? S 0:00 /usr/local/apache/bin/httpd

12936 ? S 0:00 /usr/local/apache/bin/httpd

30907 ? R 0:00 sshd: root_AT_pts/1

27741 pts/1 S 0:00 -bash

14955 ? S 0:00 /usr/local/apache/bin/httpd

13885 pts/1 R 0:00 ps -ax

je viens de redemarrer appache et mysql, ca change rien...

je vais rebooter le serveur en soft ca evitera le crash...

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...