Hardwareproblem?

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
pg-computer
Posts: 144
Joined: 2002-09-27 19:28
Location: Drebach / Erzgebirge

Hardwareproblem?

Post by pg-computer » 2006-02-23 12:13

Hoi Hoi,

ich habe auf einem Server mit Debian 3.1 ziemliche Probleme, was evtl. ein ziemlich blödes HW Problem ist.

Folgendes Problem tritt nach einiger Zeit auf.
- Exim4 macht kein TLS mehr

Das Problem tritt immer so nach 2-3 Tage auf, nachdem Server läuft.
Wird Exim4 beendet über den init.d Script, so bleiben die Prozesse offen und werden nicht mit beendet (müssen über kill abgeschossen werden) -> im Regelfall läuft das Problemlos

telnet server1.pg-computerservice.de 25
ehlo localhost
STARTTLS
.... und im Normalfall kommt hier die Bestätigung und jetzt hängts da nur fest :-(

Hatte schon den Verdacht auf RAM - wurde auch getauscht, aber wohl keinen Erfolg gehabt...
Nach diesem Problem habe ich zuletzt den Server neu gestartet und das Problem bestand immer noch - danach mein Backup Script angeworfen, welches natürlich bissl Last erzeugt und auf einmal ging es wieder???? Was ist denn da los?

Wenn dieses Problem auftritt, dann spinnt auch der Apache - wenn ich einen Reload / Restart mache, dann passiert gar nichts, die Prozesse bleiben, etc. - die Prozesse müssen dann auch mit Kill beendet werden. Selbst das ist aber noch nicht genug - wenn ich dann den Apache wieder starten will, kommt nur ein Prozess hoch und der antwortet auch auf dem Port nichts, erst nach vielen Kills und Starts kommt er irgendwann wieder hoch.
Die Logfiles geben gar nichts her - sieht alles total normal aus.

Das hab ich heut Nacht im message.log finden können - ansonsten alles normal!?

Feb 22 01:01:01 server1 kernel: NET: Registered protocol family 17
Feb 22 01:08:09 server1 kernel: sd 0:0:0:0: Attached scsi generic sg0 type 0
Feb 22 01:08:09 server1 kernel: sd 1:0:0:0: Attached scsi generic sg1 type 0

Beim Apache Reload kommen dann manchmal Meldungen wie

Code: Select all

Forcing reload of web server: Apache2 ... no pidfile found! not running?[Thu Feb 23 12:16:20 2006] [warn] NameVirtualHost 85.25.130.207:80 has no VirtualHosts
(98)Address already in use: make_sock: could not bind to address 0.0.0.0:443
no listening sockets available, shutting down
Unable to open logs
Habt ihr noch eine Idee? Ich bin mit den Ideen am Ende und kann nur noch auf Hardware spekulieren.
Der Rest der Dienste lässt sich aber soweit beenden und neu starten... hmm :?:

Schien mir die passende Forenkategorie zu sein, auch wenn das Problem eigentlich kein Tiefgang ist. :lol:

Vielen Dank für eure Hilfe im Voraus.


Peter
Last edited by pg-computer on 2006-02-26 00:18, edited 1 time in total.

flo
RSAC
Posts: 2297
Joined: 2002-07-28 13:02
Location: Berlin

Re: Hardwareproblem?

Post by flo » 2006-02-23 13:24

PG-Computer wrote:Beim Apache Reload kommen dann manchmal Meldungen wie

Code: Select all

Forcing reload of web server: Apache2 ... no pidfile found! not running?[Thu Feb 23 12:16:20 2006] [warn] NameVirtualHost 85.25.130.207:80 has no VirtualHosts
(98)Address already in use: make_sock: could not bind to address 0.0.0.0:443
no listening sockets available, shutting down
Unable to open logs
Da scheint ein Prozeß zu hängen - passiert das nach Updates?

flo.

pg-computer
Posts: 144
Joined: 2002-09-27 19:28
Location: Drebach / Erzgebirge

Re: Hardwareproblem?

Post by pg-computer » 2006-02-23 13:32

Hoi Hoi,

nee irgendwann im Betrieb fängt dann an Exim4 das TLS zu spinnen und wenn ich dann mal Apache 2 restartet wird, hängt der auch mit fest :-(

flo
RSAC
Posts: 2297
Joined: 2002-07-28 13:02
Location: Berlin

Re: Hardwareproblem?

Post by flo » 2006-02-23 13:36

welchen Kernel benutzt Du und was sagt der dazu? (dmesg)

flo.

pg-computer
Posts: 144
Joined: 2002-09-27 19:28
Location: Drebach / Erzgebirge

Re: Hardwareproblem?

Post by pg-computer » 2006-02-23 13:42

Hoi,

Kernel 2.6.15.4

Code: Select all

Linux version 2.6.15.4 (root@server1.pg-computerservice.de) (gcc version 3.3.5 (Debian 1:3.3.5-13)) #1 Sun Feb 12 02:46:03 CET 2006
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000000000 - 000000000009e000 (usable)
 BIOS-e820: 000000000009e000 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e4000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 000000003dee0000 (usable)
 BIOS-e820: 000000003dee0000 - 000000003deef000 (ACPI data)
 BIOS-e820: 000000003deef000 - 000000003df00000 (ACPI NVS)
 BIOS-e820: 000000003df00000 - 0000000040000000 (reserved)
 BIOS-e820: 00000000fec00000 - 00000000fec10000 (reserved)
 BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
 BIOS-e820: 00000000fff00000 - 0000000100000000 (reserved)
94MB HIGHMEM available.
896MB LOWMEM available.
On node 0 totalpages: 253664
  DMA zone: 4096 pages, LIFO batch:0
  DMA32 zone: 0 pages, LIFO batch:0
  Normal zone: 225280 pages, LIFO batch:31
  HighMem zone: 24288 pages, LIFO batch:3
DMI present.
ACPI: RSDP (v002 PTLTD                                 ) @ 0x000f7350
ACPI: XSDT (v001 PTLTD           XSDT   0x00050000  LTP 0x00000000) @ 0x3deeba93
ACPI: FADT (v003 FSC             0x00050000      0x000f4240) @ 0x3deebb4b
ACPI: MADT (v001 PTLTD           APIC   0x00050000  LTP 0x00000000) @ 0x3deeef48
ACPI: MCFG (v001 PTLTD    MCFG   0x00050000  LTP 0x00000000) @ 0x3deeef98
ACPI: BOOT (v001 PTLTD  $SBFTBL$ 0x00050000  LTP 0x00000001) @ 0x3deeefd8
ACPI: DSDT (v001 FSC    D2030    0x00050000 MSFT 0x02000002) @ 0x00000000
ACPI: PM-Timer IO Port: 0xf008
Allocating PCI resources starting at 50000000 (gap: 40000000:bec00000)
Built 1 zonelists
Kernel command line: root=/dev/md1 ro noapic
Initializing CPU#0
PID hash table entries: 4096 (order: 12, 65536 bytes)
Detected 1800.101 MHz processor.
Using pmtmr for high-res timesource
Console: colour VGA+ 80x25
Dentry cache hash table entries: 131072 (order: 7, 524288 bytes)
Inode-cache hash table entries: 65536 (order: 6, 262144 bytes)
Memory: 1001948k/1014656k available (1363k kernel code, 12080k reserved, 448k data, 140k init, 97152k highmem)
Checking if this processor honours the WP bit even in supervisor mode... Ok.
Calibrating delay using timer specific routine.. 3601.94 BogoMIPS (lpj=18009713)
Mount-cache hash table entries: 512
CPU: After generic identify, caps: 078bfbff e3d3fbff 00000000 00000000 00000001 00000000 00000001
CPU: After vendor identify, caps: 078bfbff e3d3fbff 00000000 00000000 00000001 00000000 00000001
CPU: L1 I Cache: 64K (64 bytes/line), D cache 64K (64 bytes/line)
CPU: L2 Cache: 1024K (64 bytes/line)
CPU: After all inits, caps: 078bfbff e3d3fbff 00000000 00000010 00000001 00000000 00000001
Intel machine check architecture supported.
Intel machine check reporting enabled on CPU#0.
mtrr: v2.0 (20020519)
CPU: AMD Opteron(tm) Processor 144 stepping 01
Enabling fast FPU save and restore... done.
Enabling unmasked SIMD FPU exception support... done.
Checking 'hlt' instruction... OK.
ACPI: setting ELCR to 0200 (from 0e20)
checking if image is initramfs... it is
Freeing initrd memory: 1152k freed
NET: Registered protocol family 16
ACPI: bus type pci registered
PCI: PCI BIOS revision 2.10 entry at 0xfd8a3, last bus=3
PCI: Using MMCONFIG
ACPI: Subsystem revision 20050902
ACPI: Interpreter enabled
ACPI: Using PIC for interrupt routing
ACPI: PCI Root Bridge [PCI0] (0000:00)
PCI: Probing PCI hardware (bus 00)
PCI: Ignoring BAR0-3 of IDE controller 0000:00:02.5
Boot video device is 0000:01:00.0
ACPI: PCI Interrupt Routing Table [_SB_.PCI0._PRT]
ACPI: PCI Interrupt Routing Table [_SB_.PCI0.PCIE._PRT]
ACPI: PCI Interrupt Routing Table [_SB_.PCI0.PCIX._PRT]
ACPI: PCI Interrupt Routing Table [_SB_.PCI0.PCE0._PRT]
ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)
ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 6 7 *9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 5 6 7 9 10 11 12 14 15) *0, disabled.
ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 5 6 7 *9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 7 *9 10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 6 7 9 10 *11 12 14 15)
ACPI: PCI Interrupt Link [LNKG] (IRQs 3 4 5 6 7 9 *10 11 12 14 15)
ACPI: PCI Interrupt Link [LNKH] (IRQs 3 4 *5 6 7 9 10 11 12 14 15)
ACPI: Device [PS2M] status [00000008]: functional but not present; setting present
ACPI: Device [FDC] status [00000008]: functional but not present; setting present
ACPI: Device [LPT] status [00000008]: functional but not present; setting present
ACPI: Device [ECP] status [00000008]: functional but not present; setting present
Linux Plug and Play Support v0.97 (c) Adam Belay
PCI: Using ACPI for IRQ routing
PCI: If a device doesn't work, try "pci=routeirq".  If it helps, post a report
PCI: Ignore bogus resource 6 [0:0] of 0000:01:00.0
PCI: Bridge: 0000:00:01.0
  IO window: 2000-2fff
  MEM window: fa100000-fa1fffff
  PREFETCH window: f0000000-f7ffffff
PCI: Bridge: 0000:00:06.0
  IO window: disabled.
  MEM window: disabled.
  PREFETCH window: disabled.
PCI: Bridge: 0000:00:1f.0
  IO window: disabled.
  MEM window: disabled.
  PREFETCH window: disabled.
PCI: Setting latency timer of device 0000:00:06.0 to 64
PCI: Setting latency timer of device 0000:00:1f.0 to 64
Simple Boot Flag at 0x69 set to 0x1
Machine check exception polling timer started.
audit: initializing netlink socket (disabled)
audit(1140438969.620:1): initialized
highmem bounce pool size: 64 pages
VFS: Disk quotas dquot_6.5.1
Dquot-cache hash table entries: 1024 (order 0, 4096 bytes)
Initializing Cryptographic API
io scheduler noop registered
0000:00:03.3 EHCI: early BIOS handoff failed (BIOS bug ?)
PNP: No PS/2 controller found. Probing ports directly.
serio: i8042 AUX port at 0x60,0x64 irq 12
serio: i8042 KBD port at 0x60,0x64 irq 1
Serial: 8250/16550 driver $Revision: 1.90 $ 4 ports, IRQ sharing enabled
serial8250: ttyS0 at I/O 0x3f8 (irq = 4) is a 16550A
RAMDISK driver initialized: 16 RAM disks of 8192K size 1024 blocksize
mice: PS/2 mouse device common for all mice
NET: Registered protocol family 2
IP route cache hash table entries: 32768 (order: 5, 131072 bytes)
TCP established hash table entries: 131072 (order: 7, 524288 bytes)
TCP bind hash table entries: 65536 (order: 6, 262144 bytes)
TCP: Hash tables configured (established 131072 bind 65536)
TCP reno registered
TCP bic registered
Using IPI Shortcut mode
Freeing unused kernel memory: 140k freed
SCSI subsystem initialized
libata version 1.20 loaded.
sata_sis 0000:00:05.0: version 0.5
ACPI: PCI Interrupt Link [LNKB] enabled at IRQ 9
PCI: setting IRQ 9 as level-triggered
ACPI: PCI Interrupt 0000:00:05.0[A] -> Link [LNKB] -> GSI 9 (level, low) -> IRQ 9
sata_sis 0000:00:05.0: Detected SiS 182 chipset
ata1: SATA max UDMA/133 cmd 0x14B0 ctl 0x14A6 bmdma 0x1490 irq 9
ata2: SATA max UDMA/133 cmd 0x14A8 ctl 0x14A2 bmdma 0x1498 irq 9
input: AT Translated Set 2 keyboard as /class/input/input0
ata1: dev 0 cfg 49:2f00 82:7c6b 83:7f09 84:4673 85:7c69 86:3e21 87:4663 88:007f
ata1: dev 0 ATA-7, max UDMA/133, 160086528 sectors: LBA48
ata1: dev 0 configured for UDMA/133
scsi0 : sata_sis
ata2: dev 0 cfg 49:2f00 82:7c6b 83:7f09 84:4673 85:7c69 86:3e21 87:4663 88:007f
ata2: dev 0 ATA-7, max UDMA/133, 160086528 sectors: LBA48
ata2: dev 0 configured for UDMA/133
scsi1 : sata_sis
  Vendor: ATA       Model: Maxtor 6L080M0    Rev: BACE
  Type:   Direct-Access                      ANSI SCSI revision: 05
  Vendor: ATA       Model: Maxtor 6L080M0    Rev: BACE
  Type:   Direct-Access                      ANSI SCSI revision: 05
SCSI device sda: 160086528 512-byte hdwr sectors (81964 MB)
SCSI device sda: drive cache: write back
SCSI device sda: 160086528 512-byte hdwr sectors (81964 MB)
SCSI device sda: drive cache: write back
 sda: sda1 sda2 sda3
sd 0:0:0:0: Attached scsi disk sda
SCSI device sdb: 160086528 512-byte hdwr sectors (81964 MB)
SCSI device sdb: drive cache: write back
SCSI device sdb: 160086528 512-byte hdwr sectors (81964 MB)
SCSI device sdb: drive cache: write back
 sdb: sdb1 sdb2 sdb3
sd 1:0:0:0: Attached scsi disk sdb
Uniform Multi-Platform E-IDE driver Revision: 7.00alpha2
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
md: md driver 0.90.3 MAX_MD_DEVS=256, MD_SB_DISKS=27
md: bitmap version 4.39
md: raid1 personality registered as nr 3
md: md1 stopped.
md: bind<sda3>
md: bind<sdb3>
raid1: raid set md1 active with 2 out of 2 mirrors
EXT3-fs: INFO: recovery required on readonly filesystem.
EXT3-fs: write access will be enabled during recovery.
kjournald starting.  Commit interval 5 seconds
EXT3-fs: md1: orphan cleanup on readonly fs
ext3_orphan_cleanup: deleting unreferenced inode 1393336
EXT3-fs: md1: 1 orphan inode deleted
EXT3-fs: recovery complete.
EXT3-fs: mounted filesystem with ordered data mode.
NET: Registered protocol family 1
Adding 1020116k swap on /dev/sda2.  Priority:-1 extents:1 across:1020116k
Adding 1020116k swap on /dev/sdb2.  Priority:-2 extents:1 across:1020116k
EXT3 FS on md1, internal journal
Generic RTC Driver v1.07
md: md0 stopped.
md: bind<sda1>
md: bind<sdb1>
raid1: raid set md0 active with 2 out of 2 mirrors
kjournald starting.  Commit interval 5 seconds
EXT3 FS on md0, internal journal
EXT3-fs: mounted filesystem with ordered data mode.
SIS5513: IDE controller at PCI slot 0000:00:02.5
ACPI: PCI Interrupt Link [LNKA] enabled at IRQ 11
PCI: setting IRQ 11 as level-triggered
ACPI: PCI Interrupt 0000:00:02.5[A] -> Link [LNKA] -> GSI 11 (level, low) -> IRQ 11
SIS5513: chipset revision 1
SIS5513: not 100% native mode: will probe irqs later
SIS5513: SiS965 ATA 133 (2nd gen) controller
    ide0: BM-DMA at 0x1480-0x1487, BIOS settings: hda:pio, hdb:pio
    ide1: BM-DMA at 0x1488-0x148f, BIOS settings: hdc:pio, hdd:pio
Probing IDE interface ide0...
Probing IDE interface ide1...
r8169 Gigabit Ethernet driver 2.2LK loaded
ACPI: PCI Interrupt Link [LNKD] enabled at IRQ 9
ACPI: PCI Interrupt 0000:00:09.0[A] -> Link [LNKD] -> GSI 9 (level, low) -> IRQ 9
eth0: Identified chip type is 'RTL8169s/8110s'.
eth0: RTL8169 at 0xf8828000, 00:30:05:ba:78:62, IRQ 9
r8169: eth0: link down
spurious 8259A interrupt: IRQ7.
r8169: eth0: link up
NET: Registered protocol family 17
Probing IDE interface ide0...
Probing IDE interface ide1...
sd 0:0:0:0: Attached scsi generic sg0 type 0
sd 1:0:0:0: Attached scsi generic sg1 type 0
Ich seh an für sich da überhaupt keine Meldungen, selbst Apache Log und Exim Log schreiben nichts ungewöhnliches. :?:

Edit: Gerade eben wieder mal geschaut und Apache lässt sich derzeit wieder einwandfrei neu starten und auch Exim4 TLS geht wieder.

Aber woher resultiert dieses Problem?????

pg-computer
Posts: 144
Joined: 2002-09-27 19:28
Location: Drebach / Erzgebirge

Re: Hardwareproblem?

Post by pg-computer » 2006-02-23 19:42

Hallo,

hab soeben mit dem Support telefoniert.
Dank der fachlichen Kompetenz scheint das Problem gefunden zu sein:
cat /proc/sys/kernel/random/entropy_avail
1

Der Kernel hat nicht genug Zufallszahlen im Vorrat und dann hängen wohl alle Prozesse, die damit zu tun haben.

Wie löst man dies nun?
http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=285371

maze
Posts: 4
Joined: 2003-11-18 19:41

Re: Hardwareproblem?

Post by maze » 2006-02-24 22:01

Du kannst, mit dem kleinen Nachteil nicht mehr ausschliesslich "echte" Zufallszahlen zu erhalten, /dev/random zur selben Quelle wie /dev/urandom linken:

Code: Select all

# rm /dev/random
# mknod -m 444 /dev/random c 1 9
# ls -al /dev/*random
cr--r--r--  1 root root 1, 9 2006-01-22 13:40 /dev/random
cr--r--r--  1 root root 1, 9 2006-01-22 13:37 /dev/urandom
Dann erhälst du soviele echte Zufallszahlen, wie momentan verfügbar plus soviele unechte Zufallszahlen wie benötigt. Also kein Blockieren mehr.

golloza
Posts: 23
Joined: 2005-01-03 17:27

Re: Hardwareproblem?

Post by golloza » 2006-02-24 22:59

Was für Hardware ist es denn?
Bestimmte P4 und AMD-Chipsätze haben Hardware-Entropy-Generatoren, die das elektrische Rauschen auf dem Chip nutzen (oder so ähnlich): CONFIG_HW_RANDOM

pg-computer
Posts: 144
Joined: 2002-09-27 19:28
Location: Drebach / Erzgebirge

Re: Hardwareproblem?

Post by pg-computer » 2006-02-25 00:00

Hoi,

wenn ich modprobe hw_random mache, dann sagt er no such device.
Scheint also nichts da zu sein... hardwareseitig :arrow:

Das Problem scheint aber vom Kernel zu kommen - ein Kollege hat noch den Default Kernel von Debian am Laufen, dort ist der Pool immer voll. (4096)
Den kann ich nur nicht bei mir verwenden, wegen dem SATA Treiber, der ist erst in den neueren Versionen drin.

Der Debian Maintainer für Exim4, etc. Marc Haber klagt aber seit den neueren Kernel Versionen auch über solche Probleme.
http://groups.google.de/group/de.comp.o ... 0aa?&hl=de

Werde evtl. zum Test mal den Standardkernel booten, der im Image installiert war - das war ein 2.6.14.2

Irgendwas muss sich im Kernel geändert haben - weiß gar nicht ob der Netzwerktraffic im Kernel 2.6 noch dazu genommen wird oder ob der seit Anfang Kernel 2.6 schon herausgenommen wurde wegen möglicher Beeinflussung der Zufallszahlen.

Im Regelfall sollen ja auch IDE Requests dazu genommen werden, aber wahrscheinlich funktioniert das bei diesem Server auch nicht, weil alles über den SATA Controller läuft??

Ich hab keine Ahnung woher das Problem richtig resultiert, ob im Kernel was geändert wurde oder ich vorher einfach nur nie darauf geachtet habe, weil es mir bis dato eigentlich egal war - nur als dann solche komischen Sachen auftraten, musste man der Ursache mal auf den Grund gehen....

Nachtrag: Sieht nach einem Kernel "Bug" aus, ein Kollege hat soeben auf seinem System auch den 2.6.15.4 installiert und dort ist die Entropy auch auf einmal so gering. Nun fragt sich nur, ab welchem Kernel das "Problem"? beginnt.

Ihr könnt ja auch mal bei euch schauen :lol:
cat /proc/sys/kernel/random/entropy_avail

Da hilft nur jemand einstellen, der den ganzen Tag auf Tastatur haut und an der Maus klickt. :lol:

@ Maze
Die Zufallszahlen werden auch nicht viel mehr, sobald ich aus random => urandom mache.... das wäre aber sowieso nur übergangsweise, da dies in der Theorie nicht so sicher gilt. :roll: