ich habe einen Server, auf den ich physisch nicht zugreifen kann und der seit ca. einem Jahr mit Debian Etch läuft. Darin befinden sich zwei Festplatten, die als RAID-1 geschaltet sind und von dem nun eine ausgefallen zu sein scheint. Backups sind in rauhen Mengen vorhanden und sollten funktionieren, aber soweit möchte man es gar nicht kommen lassen. Details/Logs zum Ausfall siehe unten.
Ich hab mir nun gedacht, dass ich als erstes die sdb checke, ob sie wirklich defekt ist. Leider ist sie laut smartctl nicht SMART-fähig, daher wäre nun die erste Frage, wie ich das teste. (Ich sehe gerade, dass die Festplatte eine Samsung HD401LJ ist, die laut google->chip.de SMART-fähig ist. Hat der Provider das Feature möglicherweise im BIOS deaktiviert?)
Fall A: Festplatte nicht defekt:
Ich baue das RAID wieder auf und freue mich.
Fall B: Festplatte defekt:
Ich melde das dem Provider und hoffe, dass er die Platte via hotplug wechseln kann. Anschließend baue ich das RAID wieder auf.
Die Hauptfrage ist nun also, wie ich die sdb nun auf Funktionsfähigkeit überprüfe.
Hier nun noch ein paar Anhänge zum Ausfall:
Systemmail:
Code: Select all
This is an automatically generated mail message from mdadm
running on domain.tld
A Fail event had been detected on md device /dev/md0.
It could be related to component device /dev/sdb2.
Faithfully yours, etc.
P.S. The /proc/mdstat file currently contains the following:
Personalities : [raid0] [raid1]
md0 : active raid1 sda2[0] sdb2[2](F)
388604224 blocks [2/1] [U_]
unused devices: <none>
Code: Select all
/dev/md0:
Version : 00.90.03
Creation Time : Thu Dec 13 17:52:32 2007
Raid Level : raid1
Array Size : 388604224 (370.60 GiB 397.93 GB)
Device Size : 388604224 (370.60 GiB 397.93 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Tue Jan 6 21:55:07 2009
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0
UUID : b69e55fc:a9126fe7:e5c1036d:f4918ae3
Events : 0.180636
Number Major Minor RaidDevice State
0 8 2 0 active sync /dev/sda2
1 0 0 1 removed
2 8 18 - faulty spare /dev/sdb2
Code: Select all
kernel: ata2.00: tag 5 cmd 0x60 Emask 0x9 stat 0x51 err 0x40 (media error)
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: exception Emask 0x0 SAct 0x7ffffffe SErr 0x0 action 0x0
kernel: ata2.00: (irq_stat 0x40000008)
kernel: ata2.00: tag 25 cmd 0x60 Emask 0x9 stat 0x51 err 0x40 (media error)
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: exception Emask 0x0 SAct 0x3ffff870 SErr 0x0 action 0x0
kernel: ata2.00: (irq_stat 0x40000008)
... (oft ähnlich wiederholt)
mdadm: RebuildFinished event detected on md device /dev/md0
kernel: Additional sense: Unrecovered read error - auto reallocate failed
kernel: end_request: I/O error, dev sdb, sector 247742086
kernel: ata2: EH complete
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: ata2.00: WARNING: zero len r/w req
last message repeated 11 times
kernel: raid1: Disk failure on sdb2, disabling device.
kernel: ^IOperation continuing on 1 devices
kernel: md: md0: sync done.
kernel: SCSI device sdb: 781422768 512-byte hdwr sectors (400088 MB)
kernel: sdb: Write Protect is off
kernel: sdb: Mode Sense: 00 3a 00 00
kernel: SCSI device sdb: drive cache: write back
kernel: RAID1 conf printout:
kernel: --- wd:1 rd:2
kernel: disk 0, wo:0, o:1, dev:sda2
kernel: disk 1, wo:1, o:0, dev:sdb2
kernel: RAID1 conf printout:
kernel: --- wd:1 rd:2
kernel: disk 0, wo:0, o:1, dev:sda2
mdadm: Fail event detected on md device /dev/md0, component device /dev/sdb2