Strategie nach Raid1-Degrade

Post by **diarrhoe** » 2009-01-06 22:02

Hallo,

ich habe einen Server, auf den ich physisch nicht zugreifen kann und der seit ca. einem Jahr mit Debian Etch läuft. Darin befinden sich zwei Festplatten, die als RAID-1 geschaltet sind und von dem nun eine ausgefallen zu sein scheint. Backups sind in rauhen Mengen vorhanden und sollten funktionieren, aber soweit möchte man es gar nicht kommen lassen. Details/Logs zum Ausfall siehe unten.

Ich hab mir nun gedacht, dass ich als erstes die sdb checke, ob sie wirklich defekt ist. Leider ist sie laut smartctl nicht SMART-fähig, daher wäre nun die erste Frage, wie ich das teste. (Ich sehe gerade, dass die Festplatte eine Samsung HD401LJ ist, die laut google->chip.de SMART-fähig ist. Hat der Provider das Feature möglicherweise im BIOS deaktiviert?)

Fall A: Festplatte nicht defekt:
Ich baue das RAID wieder auf und freue mich.

Fall B: Festplatte defekt:
Ich melde das dem Provider und hoffe, dass er die Platte via hotplug wechseln kann. Anschließend baue ich das RAID wieder auf.

Die Hauptfrage ist nun also, wie ich die sdb nun auf Funktionsfähigkeit überprüfe.

Hier nun noch ein paar Anhänge zum Ausfall:
Systemmail:

Code: Select all

This is an automatically generated mail message from mdadm
running on domain.tld

A Fail event had been detected on md device /dev/md0.

It could be related to component device /dev/sdb2.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid0] [raid1]
md0 : active raid1 sda2[0] sdb2[2](F)
    388604224 blocks [2/1] [U_]

unused devices: <none>

mdadm -D /dev/md0:

Code: Select all

/dev/md0:
        Version : 00.90.03
  Creation Time : Thu Dec 13 17:52:32 2007
     Raid Level : raid1
     Array Size : 388604224 (370.60 GiB 397.93 GB)
    Device Size : 388604224 (370.60 GiB 397.93 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Tue Jan  6 21:55:07 2009
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : b69e55fc:a9126fe7:e5c1036d:f4918ae3
         Events : 0.180636

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       0        0        1      removed

       2       8       18        -      faulty spare   /dev/sdb2

/var/log/syslog:

Code: Select all

kernel: ata2.00: tag 5 cmd 0x60 Emask 0x9 stat 0x51 err 0x40 (media error)
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: exception Emask 0x0 SAct 0x7ffffffe SErr 0x0 action 0x0
kernel: ata2.00: (irq_stat 0x40000008)
kernel: ata2.00: tag 25 cmd 0x60 Emask 0x9 stat 0x51 err 0x40 (media error)
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: exception Emask 0x0 SAct 0x3ffff870 SErr 0x0 action 0x0
kernel: ata2.00: (irq_stat 0x40000008)

... (oft ähnlich wiederholt)

mdadm: RebuildFinished event detected on md device /dev/md0
kernel:     Additional sense: Unrecovered read error - auto reallocate failed
kernel: end_request: I/O error, dev sdb, sector 247742086
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: WARNING: zero len r/w req
last message repeated 11 times
kernel: raid1: Disk failure on sdb2, disabling device. 
kernel: ^IOperation continuing on 1 devices
kernel: md: md0: sync done.
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: RAID1 conf printout:
kernel:  --- wd:1 rd:2
kernel:  disk 0, wo:0, o:1, dev:sda2
kernel:  disk 1, wo:1, o:0, dev:sdb2
kernel: RAID1 conf printout:
kernel:  --- wd:1 rd:2
kernel:  disk 0, wo:0, o:1, dev:sda2
mdadm: Fail event detected on md device /dev/md0, component device /dev/sdb2

Vielen Dank im Voraus für jegliche Hilfe.