Page 1 of 1

unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 09:45
by msnet
Hallo,

hier eine Frage an Linux Profis.

Ich habe seit ca. 30 Tagen Probleme mit 2 Opensuse 11 Server.

Beide liefen bisher einwandfrei. Beides sind VMware Maschinen auf unterschiedlicher Hardware.
Auf den VMware Hosts laufen auch andere Suse Maschinen weiterhin einwandfrei.
Hardwareprobleme möchte ich daher ausschließen.

Seit ca. 30 Tagen bleiben beide Server nach wenigen Tagen (meist ca 5 Tage) einfach stehen.
Ich lasse auf der Console immer "top" mitlaufen. top ist also noch lesbar genau zum Zeitpunkt des Absturzes.
Es sieht alles völlig normal aus, nur 115 Prozesse, Load ca. 0.30, kein Swap.
Die Uhr steht genau zum Zeitpunkt des Absturzes.
Über einen Cronjob lasse ich jede Minute ps x fortlaund in ein Logfile schreiben - auch hier nichts ungewöhnliches.

Meistens kann man sich noch als root anmelden, nach der Passworteingabe reagiert der Server nicht mehr.
Es hilft nur ausschalten/einschalten.

Die Logfiles enden alle auch genau zum Zeitpunkt des Absturzes, es gibt meiner Meinung nach absolut nichts ungewöhnliches in den Logfiles.
Alle Logfiles enden genau zum Zeitpunkt des Absturzes bis auf /var/log/mail - hier finden sich genau zu dem Zeitpunkt des Absturzes sehr viele Maileinträge.
Es sieht so aus als würde der Mailserver noch 10 Minuten weiterlaufen, aber alle Logs zum Zeitpunkt des Absturzes loggen.

Zusätzlich habe ich per UDP die Logfiles über syslog auf einemm anderen Server mitgeloggt und gehooft dort etwas zu sehen. Dort endet aber auch alles abrupt.
Die Logfiles des VMware Host geben leider auch keinerlei Hinweise.

Es handelt sich um zwei Web- und Mailserver, eizig offene Ports zum Internet sind 21/25/80/110/143/443 - sonst ist alles zu.
Onlineupdates sind auch alle gemacht - gestern gab es ein neues Update gegen eine DoS Lücke in SSL - hab ich installiert - aber bisher noch keine Ahnung ob es damit zusammenhängen könnte. Letzter Absturz war gestern, muss jetzt wieder warten was passiert.

Hat jemand seit Anfang Mai das selbe Problem mit Opensuse 11?
Wir haben noch andere Opensuse Server auf den selben VMware Hosts, die laufen ohne Probleme, es scheint nur Opensuse 11 betroffen zu sein.

Viele Grüße an alle Admins :-)


PS.: Bin gerne bereit den Aufwand für eine Lösung nach Absprache zu bezahlen.

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 12:56
by Joe User
/var vollgelaufen?

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 20:51
by msnet
Hallo,

vielen Dank für die Antwort.

/var ist bei mir keine eigenen Partition.
Wie soll ich das verstehen, mit /var vollgelaufen?

Viele Grüße

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 21:01
by f4rr3ll
Wenns keine eigene Partition ist hat sich das von Joe erledigt.
Wäre var ne eigene Partition und wäre voll würde ebenfalls das OS einfrieren und nichts mehr Dokumentieren.
Gruß Sven

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 21:10
by Joe User
F4RR3LL wrote:Wenns keine eigene Partition ist hat sich das von Joe erledigt.
Nope.
F4RR3LL wrote:Wäre var ne eigene Partition und wäre voll würde ebenfalls das OS einfrieren und nichts mehr Dokumentieren.
Das passiert auch dann, wenn /var keine eigenständige Partition ist...

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 21:14
by Joe User
msnet wrote:Wie soll ich das verstehen, mit /var vollgelaufen?
Wie siehts z.B. mit grossen (temporären) Logfiles etc. aus?

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 21:17
by f4rr3ll
Joe User wrote: Das passiert auch dann, wenn /var keine eigenständige Partition ist...
Jop wobei ich nu davon ausging das er merkt wenn / voll ist .

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-28 21:52
by msnet
Hallo und vielen Dank für die Hinweise ,

also, auf / (wo var ja auch drin liegt) sind noch einige Gigabyte frei.
Die Festplatte ist also nicht voll.

In /var/lib/nobody/Maildir/new habe ich aber auf einem der Server 87243 Dateien (Mails) gefunden, auf dem anderen 12120 Dateien.
Ich habe diesen Mailmüll gelöscht. das waren alles Mails von cronjobs.

Könnte das ein Problem gewesen sein?

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-29 06:09
by msnet
Tja, soeben ist wieder einer der zwie ohne Hinweise abgestürzt.
In den letzte Jahren habe ich sowas immer selbst hinbekommen :-(

Diesmal hatte ich top auf der ersten Konsole nicht mitlaufen.
Ich fand dann aber folgendes:

Log: Util_GetProcessName: Error: cannot open /proc10886/status
Log: Util_GetProcessName: Error: cannot open /proc23278/status
Log: Util_GetProcessName: Error: cannot open /proc3654/status
Log: Util_GetProcessName: Error: cannot open /proc19238/status
Log: Util_GetProcessName: Error: cannot open /proc18514/status
Log: Util_GetProcessName: Error: cannot open /proc6806/status
Log: Util_GetProcessName: Error: cannot open /proc11787/status
Log: Util_GetProcessName: Error: cannot open /proc7512/status
usw....

Kennt jemand eine Firma, die sich darum kümmern kann?
Oder kann man da Suse selbst beauftragen?
Ich frage jetzt mal ein paar Firmen an die ich in Google finde...

Bin für alle Hinweise dankbar.

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-05-29 18:07
by Roger Wilco
msnet wrote:

Code: Select all

Log: Util_GetProcessName: Error: cannot open /proc10886/status
Log: Util_GetProcessName: Error: cannot open /proc23278/status
[...]
Wenn das wirklich so ausgegeben wird, fehlt in dem Pfad ein Slash zwischen /proc und der PID. Je nachdem, wie komplex die Software ist und du den Quelltext besitzt, könntest du den Fehler eventuell selbst behben. Auf jeden Fall würde ich aber den Hersteller der Software informieren und ggf. den Bugtracker (falls vorhanden) nach diesem Problem durchsuchen.
msnet wrote:Oder kann man da Suse selbst beauftragen?
Nein. Novell ist ja nicht Hersteller der Software und du hast keinen Wartungsvertrag, oder?

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-06-03 18:20
by msnet
Hallo,

Problem besteht weiterhin. Server stürzt nach ca. 4-5 Tagen ab.
zu /proc10886/status: Ja, da ist ein Slash zwischen Proc und der pid, hatte ich vergessen abzutippen vom Screenshot der VMwareconsole.

Angeschriebene Firmen die professionellen Liniux Support bieten, möchten da nicht an.
Ein Anbieter war dran und hat auch nix gefunden.
Nichtmal für Geld scheint jeamnd das Problem zu finden.

Hir noch neue Hinweise: Es sieht so aus als würde die Uhrzeit auf dem Server einfach stehen bleiben.
Ich habe mir ein Script geschrieben, dass jede Minute verschiedene Dinge wie die Ausage von top, free, Arbeitsverzeichnisse der Apacheprozezze, ps x usw. in Textdateien schreibt.

Die Serveruhr bleibt einfach stehen und die Dateien werden noch ca. einen Stunde lang überschrieben, die Logfiles bleiben auch ca. 1 Stunde vor dem Absturz stehen und es gibt dann ellenlange Logfiles, alle mit genau derselben Uhrzeit.

Das macht der Server dann noch ca. eine Stunde lang und verabschiedet sich dann ganz.

Sowas hatte ich noch nie und es ist wirklich seltsam, dass sich da selbst Firmen die in Google Werbung für Linuxsupport schalten, da nicht dranwollen.

Gibts hier im Forum keine Vollblut Linuxprofis denen diese Fehlerbeschreibung etwas sagt?

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2009-06-03 21:34
by Joe User
Wenn wirklich die Systemuhr stehenbleibt, dann ist es ein Bug in Deinem VMWare...

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Posted: 2010-04-15 08:40
by archetrix
Auch auf die Gefahr hin wegen Aufwärmens eines alten Threads für Unmut zu sorgen ....

Ich habe hier das gleiche Problem und kann eine teilweise Lösung anbieten.
Wir haben hier noch ein recht betagtes VMware Server 1.0.3 Setup laufen und darauf die VM sukzessive natürlich geupdated und sind auch mit der Version 11 von OpenSuSE ziemlich unglücklich was die Stabilität unter VMware anbelangt.
Dann haben wir einem Hinweis von VMware folgend ein paar Änderungen vorgenommen, die bei einem Großteil der VM Erfolg hatte. Es ist also kein Allheilmittel, aber vielleicht hilft es hier jemandem weiter.

1. OpenSuSE's openvmware-tools deinstallieren.
2. Die VMware-Tools installieren - notfalls kompilieren lassen.
- bei uns ließen sich nie alle Module kompilieren, aber die wichtigsten gingen.
3. Der default Startoption in der Datei /boot/grub/menu.lst folgende Startparameter hinzufügen: 'clocksource=pit noapic nolapic'
(Wer sich für LILO oder andere Boot-Methoden entschieden hat weiss wo er die entsprechenden Stellen dort findet und anpasst)
4. VM runterfahren und die entsprechende *.vmx -Datei der VM im editor bearbeiten.
- die Zeile 'tools.syncTime = "TRUE"' finden oder hinzufügen.
5. VM wieder hochfahren, alles kurz testen und dann abwarten.

Da ich wie gesagt nicht alle meine VM damit "heilen" konnte bin ich für jeden hier noch nicht gebrachten Tipp dankbar.
Den Hinweis auf die stehende Uhr werde ich bei meinen Servern auch mal prüfen. Das war bisher nicht aufgefallen, weil hier keine so log-wütigen Prozesse wie es ein Mailserver ist laufen.

Danke und Grüße