Aller au contenu

Problème de raid sur serveur OVH


Rogers

Sujets conseillés

Bonjour,

Bonjour,

Afin de sécuriser mon serveur qui a un an, j'ai décidé d'utiliser un kernel à jour via le netboot. Malheureusement, ça n'a pas fonctionné (je n'en connais pas les raisons). Après 30 minutes d'attente (oui je suis patient), je décide de rebouter sur le hd. Malheureusement ça n'a pas rebouté, le support m'a fait rebooter sur le mode rescue pour les raisons suivantes :

"The superblock could nnot be read or does not describe a

correct ext2 Filesystem, If the device is valid and it

really contains an ext2 filesystem ( and not swap or ufs or

something else), then the superblock is corrupt, nand you

might try running e2fsck with an alternat superblock :

e2fsck b 8199 <device>

give root password for maintenance

(or type control-d to continue)"

Après avoir fait plusieurs tests avec e2fsck, voici le résultat de ma dernière commande :

root_AT_rescue:~# e2fsck -fvc /dev/md1
e2fsck: /lib/libblkid.so.1: no version information available (required by e2fsck)
e2fsck: /lib/libuuid.so.1: no version information available (required by e2fsck)
e2fsck 1.41.9 (22-Aug-2009)
Checking for bad blocks (read-only test): done
/: Updating bad block inode.
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information

/: ***** FILE SYSTEM WAS MODIFIED *****

357685 inodes used (27.91%)
9578 non-contiguous files (2.7%)
260 non-contiguous directories (0.1%)
# of inodes with ind/dind/tind blocks: 6037/105/0
1315440 blocks used (51.38%)
0 bad blocks
0 large files

312955 regular files
30933 directories
1050 character device files
4110 block device files
2 fifos
3157 links
8589 symbolic links (8509 fast symbolic links)
37 sockets
--------
360833 files
root_AT_rescue:~# /sbin/reboot

The system is going down for reboot NOW!et (pts/2) (Thu Jan 14 20:36:56 2010)

Entre temps j'ai fait toutes les manips possibles avec e2fsck et ça ne marche toujours pas. Toujours pas de réponse sur le ticket incident de la part d'OVH.

Bon depuis, autre problème : le raid est degraded. Génial !!!

rescue / # mdadm --misc --detail /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Tue Feb 3 11:57:08 2009
Raid Level : raid1
Array Size : 10241280 (9.77 GiB 10.49 GB)
Used Dev Size : 10241280 (9.77 GiB 10.49 GB)
Raid Devices : 2
Total Devices : 1
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Fri Jan 15 10:25:08 2010
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0

UUID : 7f8cf100:c6a9c268:dffd7b32:01270bfb
Events : 0.556

Number Major Minor RaidDevice State
0 8 1 0 active sync
1 0 0 1 removed

Donc là je sature, je n'y connais strictement rien en raid, en théorie je pense que si on récupère les fichiers du disque slave, ça devrait fonctionner mais avant il faut rétablir le raid. Je ne sais pas comment faire. Avez-vous une idée ? Au besoin, je suis prêt à payer s'il le faut.

Merci d'avance.

Lien vers le commentaire
Partager sur d’autres sites

Manifestement la ligne suivante :

Total Devices : 1

signifie que l'un de tes disques est hors-service.

Es-tu certain d'avoir créé correctement le raid ?

Cette ligne me semble suspecte à cause du major et minor number du device ???

1       0        0        1      removed

Elle devrait correspondre à /dev/sdb1.

Le cas échéant, c'est au support de changer le disque défectueux !

Mais assure-toi d'abord que ce device est bien accessible

Lien vers le commentaire
Partager sur d’autres sites

Merci pour ta réponse Dan.

Toutefois, j'ai un peu avancé et peut être que tout n'est pas perdu. Mais encore une fois, je ne comprends pas trop le fonctionnement de raid, donc peut être ai-je tort.

Lorsque j'ai fourni la commande mdadm il me semble que je n'avais pas fait encore :

mdadm /dev/md1 --manage --add /dev/sdb1

J'ai fais pareil il y a quelques minutes avec le md2

Là si je lance un : cat /proc/mdstat

Voici ce que j'obtiens :

root_AT_rescue:~# cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4] [multipath] [faulty]
md1 : active raid1 sdb1[1] sda1[0]
10241280 blocks [2/2] [UU]

md2 : active raid1 sdb2[2] sda2[0]
721808384 blocks [2/1] [U_]
[===========>.........] recovery = 58.6% (423152512/721808384) finish=60.5min speed=82144K/sec

unused devices: <none>

Je pense donc que je suis sur la bonne voie pour remettre en place mon raid.

Concernant ta commande, je viens de la lancer, voici son résultat :

root_AT_rescue:~# ls -l /dev/sd*
brw-rw---- 1 root disk 8, 0 Jan 15 10:00 /dev/sda
brw-rw---- 1 root disk 8, 1 Jan 15 10:00 /dev/sda1
brw-rw---- 1 root disk 8, 2 Jan 15 10:00 /dev/sda2
brw-rw---- 1 root disk 8, 3 Jan 15 10:00 /dev/sda3
brw-rw---- 1 root disk 8, 16 Jan 15 10:00 /dev/sdb
brw-rw---- 1 root disk 8, 17 Jan 15 10:00 /dev/sdb1
brw-rw---- 1 root disk 8, 18 Jan 15 10:00 /dev/sdb2
brw-rw---- 1 root disk 8, 19 Jan 15 10:00 /dev/sdb3

Sinon une fois mon recovery fini, dois-je faire encore quelque chose ou puis-je redemarrer ?

Lien vers le commentaire
Partager sur d’autres sites

C'est ton device qui n'était pas le bon... mais tu peux rebooter si

mdadm --detail /dev/md1 

te montre bien les deux disques !

Relance tout de même un "fsck" avant !

Fais de même pour tes autres partitions (sauf le swap) en remplaçant /dev/md1 par /dev/mdX

Dan

Lien vers le commentaire
Partager sur d’autres sites

Donc si j'ai total device : 2 alors je suis bon c'est ça ?

Je relancerai fsck au cas où mais hier lors de ma première tentative, j'avais déjà commencé par utilisé le mode "interface web" du rescue mode, le 2 DD n'étaient pas en degraded. En faisant des e2fsk, il me trouvait le disque clean. Penses tu que je doive vérifier qqch avant ?

Le recovery de md2 n'est pas fini mais :

root_AT_rescue:~# fsck /dev/md1
fsck 1.41.3 (12-Oct-2008)
fsck.ext3: /lib/libblkid.so.1: no version information available (required by fsck.ext3)
fsck.ext3: /lib/libuuid.so.1: no version information available (required by fsck.ext3)
e2fsck 1.41.9 (22-Aug-2009)
/: clean, 357806/1281696 files, 1340101/2560320 blocks

Je pense toutefois que je devrai redemarrer en mode vkvm afin de voir si l'erreur est toujours là.

Lien vers le commentaire
Partager sur d’autres sites

Non, à mon avis c'est tout bon.

Sauf si tu as une erreur de config qui n'a rien à voir avec ton RAID !

Pour rebooter, lance plutôt un

shutdown -r now

C'est plus propre.

Assure-toi avant d'avoir changé le netboot pour qu'il ne soit plus en "rescue"

Lien vers le commentaire
Partager sur d’autres sites

Non, je n'ai rien touché, je le laisse en défaut, si il y a un problème sur un des disques, ils devraient m'en dire plus.

Toutefois, c'est long :

Rack: 04B08

* 1 server down, 1hour 14min 51sec ago

J'espère qu'ils vont bientôt le regarder. Le mettre en rescue ne me permettrait pas de faire grand chose.

Lien vers le commentaire
Partager sur d’autres sites

Des news.

Après 1h30 d'attente, voici ce qu'ovh a détecté :

Voici les détails de cette opération :

Reboot HARD

Date 2010-01-15 17:46:00, karl B a fait Reboot HARD:

Serveur retrouvé sur ecran noir

Reboot hard effectué

Serveur ping ok et SSH ouvert

Donc ça a redemarré sous vkvm mais impossible de me connecter, l'applet java me dit :

Network Error: Software caused connection abort: recv failed

Bon du coup je redemarre sur le hd, on verra bien.

Lien vers le commentaire
Partager sur d’autres sites

De nouveau en défaut sur le hd. C'est désespérant.

J'envisage de tout reformater parce que là c'est gonflant. J'ai eut le tps de sauvegarder mon ftp et le répertoire home/mysql (je n'avais pas de sauvegarde récente de mes BD). Toutefois, je n'aime pas cette solution, je trouve dommage de tout réinstaller au moindre problème. Mais plus de 24h sans serveur, c'est limite. Ce serait quand même l'occasion de prendre un autre os que la release 2. Debian est-elle la mieux ?

Modifié par Rogers
Lien vers le commentaire
Partager sur d’autres sites

Pour moi c'est Debian, et comme on dit outre-atlantique : "hands up !" :handshake:

J'en gère près de 140, sans problème aucun (si ce n'est les bourdes faites par les utilisateurs)

Si tu as sauvé le répertoire /home/mysql sans arrêter mysqld, tu risques d'avoir des bases dans un état "indéterminé" :(

Si mysqld était arrêté, c'est OK !

Lien vers le commentaire
Partager sur d’autres sites

Le temps d'aller manger un petit bout, ils m'ont repassé en mode rescue. Voici ce qu'ils me donnent comme élément :

Serveur retrouvé sur le message suivant :

Filesystem could not be fixed

Give password for maintenance or controlD

Reboot par controlD pour maintenance

Même message

Passage en bzimage 2.6

Même message

Passage en rescue pro

Ping ok et ssh ouvert

Ils sont gentils, mais je ne vois pas ce que je peux faire de plus. Le formatage est-elle la bonne soluce ?

Lien vers le commentaire
Partager sur d’autres sites

Merci dan pour toute ton aide et du temps que tu m'as consacré. Toutefois, étant donné que le problème commençait à durer (plus de 24 heures sans serveur), j'ai décidé il y a deux heures de reformater et de mettre une debian. J'ai déjà installé PHP, Mysql, Apache, ftp. Les fichiers de sauvegarde sont déjà en train d'être transférés et la procédure sera fini dans 5 heures. Entre temps j'aurai tout reconfiguré sur le serveur.

Au passage, je suis content de la debian (j'ai pris une 5.0 lenny), pas de problèmes de dépendance, c'est du bonheur. Je verrai une fois que tout sera installé mais je suis content de m'être débarrassé de la release 2, sachant que je ne me servait pas de ovhm pour créer mes domaines, je n'en avais aucune utilité.

Lien vers le commentaire
Partager sur d’autres sites

Tu as bien fait, surtout si ton serveur n'avait pas beaucoup de fichiers dont tu n'avais pas de sauvegarde.

Il est clair que la Debian Lenny, à côté d'une release 2, ce n'est que du bonheur. ;)

Dan

Lien vers le commentaire
Partager sur d’autres sites

Malheureusement la saga est de retour. Encore des soucis.

Après avoir quasi tout installé, alors que je faisais une dernière install hier, j'ai dû refaire un reboot soft. Rien de grave, j'en avais déjà fait quelques un dans la journée. Malheureusement, serveur ne redemarre pas, plus de ping.

Je reboot hard cette fois-ci et là rien non plus. Raison donné par le monitoring : problème de filesystems. Mais bien sûr, je les bouffe les filesystems ???? Le même problème à 4 jours d'intervalle alors que j'ai tout réinstallé. M'enfin pas grave, je décide de regarder en mode vkvm pour en savoir plus. J'arrive à me connecter, et une fois loggué, je reçois toutes les 30 sec à 6à sec un message détectant un problème de HD. Voyez par vous même :


/>http://img13.imageshack.us/img13/8782/screenlr.jpg

Ovh ne fait rien. Et moi je ne sais plus quoi faire.

Lien vers le commentaire
Partager sur d’autres sites

Arf, j'écrivais toujours sur le même ticket qui n'avais aucune priorité ce qui explique qu'on ne me lisait pas. Je l'ai donc fermé, et comme tu me l'as conseillé, j'ai ouvert un ticket critique. Je ne savais pas que l'on pouvais faire ça. Merci à toi.

Entre temps, j'ai essayé de redemarré tout à l'heure, défaut encore et le support a contrôlé ceci :

Voici les détails de cette opération :

Diagnostic software

Date 2010-01-18 09:13:21, damien F a fait Diagnostic

software:

Le serveur était en echec de vérification des fichiers

systemes

CTRL - D effectue pour continuer le boot mais le serveur

bloque sur le message d'erreur suivant :

* SSLrandomSeed: souce path 'dev/urandom' does not exist

Idem aprés reboot et boot sur bzimage

Serveur sous rescue pro pour reconfiguration du client

Ping ok, service open

Moi je trouve que ça fait beaucoup de problèmes qui apparaissent rapidement.

Il n'y a plus qu'à attendre.

Lien vers le commentaire
Partager sur d’autres sites

S'il est en rescue pro, c'est à toi d'intervenir.

Donc n'attends pas qu'OVH intervienne ou tu risques d'attendre longtemps.

Il semble que ton installation ne sois pas complète...

Lien vers le commentaire
Partager sur d’autres sites

L'install était complète, il a marché 2 deux jours avec. Il n'y a pas de raisons.

Quoiqu'il en soit, le message que j'ai en mode vkvm indique clairement un soucis. Si un des disque est endommagé, il n'est pas impossible que certains fichiers ne fonctionnent plus donc plus possible d'avoir le SSL. Je ne m'y connais pas assez.

Sinon, mis à part OVH, il y a quoi de sérieux pour du dédié ? Je ne demande pas 750 Go de DD comme j'ai actuellement ni 4Go de RAM, maais quelque chose de potable. J'ai regardé chez SIVIT connu pour leur sérieux, mais je dois avouer que les prix sont hallucinants. Pas de RAM (10 euros HT/mois en plus par tranche de 256 Mo de Ram supplémentaire), ils sont un peu à côté de la plaque. A ce tarif, une barette de 1Go est payée dès le premier mois. J'envisage de changer car je suis déçu de OVH, les techniciens répondent plusieurs jours après et ne tiennent pas compte de nos indications. C'est frustrant quant on a pas accès à la machine.

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...