df, du führen zum swappen und zum Absturz des Systems

Alles was in keine andere Systemkategorie passt
serverfreak1982
Posts: 1
Joined: 2016-09-26 20:27

df, du führen zum swappen und zum Absturz des Systems

Post by serverfreak1982 » 2016-09-26 21:34

Hallo zusammen,

ich habe seit einigen Wochen ein Problem, dass ich einfach nicht gelöst bekomme und inzwischen ratlos bin.

Das Icinga-Plugin check_disk oder auch df oder du fangen irgendwann an, immer mehr (mehrere GB Arbeitsspeicher) pro Ausführung zu ziehen, so dass der Server anfängt zu swappen und bei irgendeiner Ausführung zieht solch ein Prozess dann soviel RAM, dass dass swappen zu exorbitanten Loadwertn führt und gar nicht mehr reagiert. Dann hilft nur noch ein Hardware-Reset.
Wenn ich den Server neustarte läuft das System wieder knapp 48 Stunden ohne Probleme. Dann beginnt das Spiel von vorne.

Im Kernel-Log tauchen zu der Zeit folgende Meldungen auf:
http://pastebin.com/P28pVTaC

Bis auf die Festplatten habe ich den kompletten Server getauscht (baugleiches Modell).
Hardwareseitig können es wenn nur noch die Festplatten sein. Aber warum sollten diese nahezu regelmäßig alle 48 Stunden Probleme machen? Der Hardware-RAID-Controller meldet zudem keine Probleme.

Zeitgleich mit dem erstmaligen Auftreten des Problem gab es ein kompromittiertes Wordpress auf dem Server.
Die Präsenz bzw. die Dateien wurden komplett entfernt. chkrootkit und rkhunter haben nichts gefunden.
Ich finde auch keine auffälligen Prozesse die das Verhalten erklären könnten.

Das Betriebssystem ist auf dem aktuellen Stand. Mit Kernel 4.6.0-0.bpo.1-amd64. aus den Backports tritt das Problem ebenfalls auf.

Dell Poweredge 1950
Intel Xeon L5420
24 GB RAM
2x 400 GB Seagate SAS HDD
PERC 6i (RAID1)
Debian 8

Über Hinweise, Anregungen etc. würde ich mich sehr freuen.

Gruß
Patrick

User avatar
Joe User
Project Manager
Project Manager
Posts: 11614
Joined: 2003-02-27 01:00
Location: Hamburg

Re: df, du führen zum swappen und zum Absturz des Systems

Post by Joe User » 2016-09-27 00:25

Hast Du als ersten Workaround schon versucht "noapic" und/oder "acpi=off" als Kernelparameter mitzugeben?

Unabhängig davon ist dies ein Fall für die Kerneldevs (sowohl Distro als auch Upstream), denn die können an Hand der Stacktraces die Ursache schneller und genauer einkreisen und gegebenenfalls auch gleich einen Bugfix liefern.
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.