Server friert bei vielen Dateisystemzugriffen ein und keine Logeinträge wieso..

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
khark

Server friert bei vielen Dateisystemzugriffen ein und keine Logeinträge wieso..

Post by khark » 2007-09-27 21:14

Hallo,

ich habe ein Problem, das ich bisher nicht wirklich orten konnte.
Mein Server scheint sich bei intensiveren Vorgänge im Dateisystem "wegzuhängen".
Er reagiert manchmal noch auf ICMP-Ping anfragen aber über IP ist schluss. Verbindungen über TCP/UDP kommen nicht zustande.
Sprich: Kein SSH, kein IMAP/POP3/SMTP/HTTP/HTTPS, etc.

Ich konnte zuerst auch nicht sagen, ob der Server nun komplett aus ist, oder ob einfach der IP-Stack o.ä. aufgrund zuvieler Verbindungen abriegelt..
- Mitgesnifft habe ich noch nicht. Werde ich aber nach tippen dieses Beitrages tun. Dann sehe ich, was netzwerktechnisch passiert, wenn der Server weg ist.

Daten:
OS: Debian Etch
Arch: amd64
RAM: 1GB
- Aktuell: used: 273M, buffers: 20M, cache: 117M
- Und dies sind auch die üblichen Werte..
Swap: 2GB (RAID1: /dev/md0)
- Bisher habe ich noch nie in top/htop gesehen, das der Swap genutzt wurde.
HDD: 2x 160 GB (/dev/sda, /dev/sdb)
Partitonierung: / direkt auf /dev/md1
Dateisystem: / - ext3 (RAID1: /dev/md1)
Durchschnittliche Load (15min): 0.2

Aber erstmal der Reihe nach:

Freitag, 21.09.2007: Per apt-get dist-upgrade installiere ich das neue Kernel Image linux-image-2.6.18-5-amd64 2.6.18.dfsg.1-13etch. Vorher war der 2.6.18-4-amd64 Kernel drauf.
Ebenfalls installierte ich logwatch v7.3.1-5.
- Dadurch das ich vergessen habe über Lilo den MBR neuzuschreiben fährt das System ein paar mal hoch und runter. Bis mir einfällt was ich vergessen habe.. *patsch*

Um 22:32:12 Uhr schießt WinSCP den Kernel (not tainted) ab? (WinSCP bracht jedenfalls die Verbindung ab und ich verstehe die Kernelmeldung nicht..)
Meldung:
general protection fault: 0000 [1] SMP

Komplett Kernelmeldung hier: https://213.239.207.99/kernel-scp.txt

Um 17:21:14 Uhr fahre ich den Server wieder ins normale System hoch.
- Ich weiß leider nicht mehr, ob der Server danach nicht mehr erreichbar war oder doch..

23:51:46: Server reboot.
23:52:39: Server fährt wieder hoch.
23:54:20: Server reboot.
23:55:13: Server fährt wieder hoch.

Samstag, 22.09.2007: 00:10:56 Uhr: Ich komme endlich drauf, was ich vergessen habe. Kernel ist jetzt 2.6.18-5-amd64. Server bootet problemlos.
- Applaus bitte...

20:54:08 Uhr: Spätester Log-Eintrag bevor der Server hängt. Ich habe dann erstmal ins Recuesystem geguckt, da ich dachte mit dem Kernel stimmt was nicht. Konnte aber nichts finden.
21:38:09 Uhr: Server fährt nach rebootet durch Kundenmenü wieder hoch.
22:49:14 Uhr: Server hängt wieder.

Sonntag, 23.09.2007:
06:25:33 Uhr: Server hängt wieder.
Interessantes Detail:
Cron-Daily läuft um 6:25Uhr. (Debian Standard)
Cron-Weekly läuift Sonntags um 6:47Uhr.
- Keine Logeinträge was das "einfrieren" verursacht hat.
14:07:28 Uhr: Server fährt wieder problemlos hoch. Keine Logeinträge. Server läuft bis Montag früh.

Montag, 24.09.2007:
06:26:02 Uhr - Das System steht und um 22:22:19 Uhr kommt der Server dank reboot wieder. (War unterwegs.) Keine Logeinträge.
Das System läuft durch bis zum 26.09.2007 um 16:15:19.

Mittwoch, 26.09.2007:
16:15:19 Uhr: Der Server ist nach einem "find / -type f -exec grep -l "begriff" '{}' ';'" nur noch anpingbar. SSH friert ein. Keine Kommunikation mit Protokollen über der IP-Schicht möglich. (Habs jetzt nur mit ICMP getestet.)
Nach einem reboot wieder alles normal. Server bootet sauber hoch alles Dienste starten automatisch und fehlerfrei. Keine Logeinträge.

22:50:38Uhr:
Als ich ein "updatedb" als root eintippe, friert die Kiste wieder ein. Aber der Server antwortet immer noch auf ICMP-Pings. 73ms ist die durchschnittliche Antwort-Zeit für Pings.
Wieder keine Logeinträge.
In Munin kann ich sehen, das der Buffer auf einmal nahezu den gesamten freien RAM beansprucht, bis der Server nicht mehr erreichbar war.

27.09.2007:
20:53Uhr: Eben wollte ich Munin aufrufen und aufeinmal brach die SSH-Verbindung zusammen. Auf Pings reagierte der Server auch nicht.. Also wieder Reboot. Wieder keine Logeinträge.


Fazit:
2 Dinge gibt es, die mir aufallen:
a) Die Ausfälle häufen sich exakt um die Zeit herum, wenn die täglich Cronjobs durchlaufen. Ich werde die Zeit mal verschieben.
b) Wenn Aktionen durchgeführt werden, die viel mit lesen im Dateisystem zu tun haben (grep quer über / und updatedb) hängt sich das System auch weg.
- S.M.A.R.T sagt das alles OK ist. Und ein Dateisystem-Check brachte auch nichts zu tage.. (Output der Checks aus dem Rettungssystem habe ich ans Ende angehangen.

Ich habe momentan einfach keinerlei Ahnung was die Ursache für das einfrieren sein kann und habe soetwas auch noch nie erlebt/davon gehört.

Weiß jemand woher die Probleme rühren können?
Vor Kernel 2.6.18-4-amd64 war jedenfalls alles ok.

Wer Zugriff auf Munin haben will, soll sich melden. Dann schicke ich den Link mit Logindaten. Ich habe den hier nicht reingepostet, da sich der Server mitunter ja schon abschießt, wenn Munin abgerufen wird..

MfG Khark
P.S: Es folgen noch die Ausgaben von e2fsck.

Dateisystem-Checks:
root@rescue ~ # date && e2fsck -p -f -t -v /dev/md1 && date
Thu Sep 27 00:57:23 CEST 2007
Peak memory: Memory used: 396k/24984k (190k/207k), time: 94.35/ 2.70/ 6.28

61383 inodes used (0.32%)
723 non-contiguous inodes (1.2%)
# of inodes with ind/dind/tind blocks: 3290/43/0
1053894 blocks used (2.73%)
0 bad blocks
0 large files

44676 regular files
6735 directories
1325 character device files
4579 block device files
6 fifos
2013 links
4023 symbolic links (3888 fast symbolic links)
30 sockets
--------
63387 files
Memory used: 240k/0k (30k/211k), time: 107.70/ 5.28/ 6.66
Thu Sep 27 00:59:11 CEST 2007
root@rescue ~ # date && e2fsck -p /dev/md1 && date
Thu Sep 27 01:00:32 CEST 2007
/dev/md1: clean, 61383/19283968 files, 1053894/38547936 blocks
Thu Sep 27 01:00:32 CEST 2007

root@rescue ~ # date && e2fsck -cc /dev/md1 && date
Thu Sep 27 08:28:52 CEST 2007
e2fsck 1.40-WIP (14-Nov-2006)
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: 25845696/ 38547935
done
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information

/dev/md1: ***** FILE SYSTEM WAS MODIFIED *****
/dev/md1: 61383/19283968 files (1.2% non-contiguous), 1053894/38547936 blocks
root@rescue ~ # date && e2fsck -f -p /dev/md1 && date
Thu Sep 27 13:52:53 CEST 2007
/dev/md1: 61383/19283968 files (1.2% non-contiguous), 1053894/38547936 blocks
Thu Sep 27 13:54:39 CEST 2007

khark

Re: Server friert bei vielen Dateisystemzugriffen ein und keine Logeinträge wieso..

Post by khark » 2007-09-30 00:01

Edit:
Ich habe durch den Support des Hosters mal CPU/RAM/Festplatten/Dateisystem von extern (sprich: ohne gebootetes System) durchchecken lassen.
Ergebniss: Alles i.O.

Ich darf also weiter rätseln..

khark

Re: Server friert bei vielen Dateisystemzugriffen ein und keine

Post by khark » 2008-02-18 22:06

Hallo,

hier mal die Lösung des Problems.
Es lag an ACPI. Den entscheidenden Hinweis bekam ich, als ich einfach jedesmal bei einem Aufhängen die netten Techniker bat die Fehlermeldung abzuschreiben :-)

Die KIste hat häufig durch ACPI verursachte Soft Lockups (Meldung: Soft Lockup detected on CPU#0!)
Ab und zu auch mal eine Kernel Panik. Dies wurde aber durch versch. Softwarepakete ausgelöst und auch nur relativ selten in vergleich zu den Soft Lockups

Ein

Code: Select all

kernel.panic=5
in der /etc/sysctl.conf kann auch helfen. Allerdings nicht bei Soft Lockups :-)

ACPI ist jetzt im BIOS deaktiviert und beim booten auch per acpi=off (Grub).

theomega
Userprojekt
Userprojekt
Posts: 704
Joined: 2003-01-27 14:36

Re: Server friert bei vielen Dateisystemzugriffen ein und keine

Post by theomega » 2008-02-24 23:42

Handelt es sich dabei um einen Hetzner Server?
Rein Interessehalber!

khark

Re: Server friert bei vielen Dateisystemzugriffen ein und keine

Post by khark » 2008-03-01 19:55

Ja, tut es.

Und rein interessehalber: Wieso fragst du? :-)

Im Hetzner-Forum bin ich auch auf 1-2 ähnliche Threads gestoßen. Dort wurden die Probleme aber anders gelöst. Habe im Hetzner-Forum aber nicht all zuviel Zeit verbracht. Erfahrungsgemäß kommt da nicht soviel rüber..

User avatar
daemotron
Administrator
Administrator
Posts: 2800
Joined: 2004-01-21 17:44

Re: Server friert bei vielen Dateisystemzugriffen ein und keine

Post by daemotron » 2008-03-02 10:19

Khark wrote:Und rein interessehalber: Wieso fragst du? :-)

Ist zwar wild geraten, da ich keine Gedanken lesen kann, aber möglicherweise deswegen: http://www.rootforum.org/forum/view ... 42&t=45388

theomega
Userprojekt
Userprojekt
Posts: 704
Joined: 2003-01-27 14:36

Re: Server friert bei vielen Dateisystemzugriffen ein und keine

Post by theomega » 2008-03-02 16:32

Richtig, jfreund, mir kam die ganze sache komisch vor. Ich weiß auch nicht wie es hetzner hinbekommt den fehler immer wieder zu erzeugen. die werden doch keines so aussergewöhnliche Hardware im Einsatz haben.