unregelmäßige Abstürze von 2 Opensuse 11 Servern

Alles was in keine andere Systemkategorie passt
msnet
Posts: 5
Joined: 2009-05-28 09:31
 

unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by msnet »

Hallo,

hier eine Frage an Linux Profis.

Ich habe seit ca. 30 Tagen Probleme mit 2 Opensuse 11 Server.

Beide liefen bisher einwandfrei. Beides sind VMware Maschinen auf unterschiedlicher Hardware.
Auf den VMware Hosts laufen auch andere Suse Maschinen weiterhin einwandfrei.
Hardwareprobleme möchte ich daher ausschließen.

Seit ca. 30 Tagen bleiben beide Server nach wenigen Tagen (meist ca 5 Tage) einfach stehen.
Ich lasse auf der Console immer "top" mitlaufen. top ist also noch lesbar genau zum Zeitpunkt des Absturzes.
Es sieht alles völlig normal aus, nur 115 Prozesse, Load ca. 0.30, kein Swap.
Die Uhr steht genau zum Zeitpunkt des Absturzes.
Über einen Cronjob lasse ich jede Minute ps x fortlaund in ein Logfile schreiben - auch hier nichts ungewöhnliches.

Meistens kann man sich noch als root anmelden, nach der Passworteingabe reagiert der Server nicht mehr.
Es hilft nur ausschalten/einschalten.

Die Logfiles enden alle auch genau zum Zeitpunkt des Absturzes, es gibt meiner Meinung nach absolut nichts ungewöhnliches in den Logfiles.
Alle Logfiles enden genau zum Zeitpunkt des Absturzes bis auf /var/log/mail - hier finden sich genau zu dem Zeitpunkt des Absturzes sehr viele Maileinträge.
Es sieht so aus als würde der Mailserver noch 10 Minuten weiterlaufen, aber alle Logs zum Zeitpunkt des Absturzes loggen.

Zusätzlich habe ich per UDP die Logfiles über syslog auf einemm anderen Server mitgeloggt und gehooft dort etwas zu sehen. Dort endet aber auch alles abrupt.
Die Logfiles des VMware Host geben leider auch keinerlei Hinweise.

Es handelt sich um zwei Web- und Mailserver, eizig offene Ports zum Internet sind 21/25/80/110/143/443 - sonst ist alles zu.
Onlineupdates sind auch alle gemacht - gestern gab es ein neues Update gegen eine DoS Lücke in SSL - hab ich installiert - aber bisher noch keine Ahnung ob es damit zusammenhängen könnte. Letzter Absturz war gestern, muss jetzt wieder warten was passiert.

Hat jemand seit Anfang Mai das selbe Problem mit Opensuse 11?
Wir haben noch andere Opensuse Server auf den selben VMware Hosts, die laufen ohne Probleme, es scheint nur Opensuse 11 betroffen zu sein.

Viele Grüße an alle Admins :-)


PS.: Bin gerne bereit den Aufwand für eine Lösung nach Absprache zu bezahlen.
Last edited by msnet on 2009-05-29 06:52, edited 3 times in total.
User avatar
Joe User
Project Manager
Project Manager
Posts: 11183
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by Joe User »

/var vollgelaufen?
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
msnet
Posts: 5
Joined: 2009-05-28 09:31
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by msnet »

Hallo,

vielen Dank für die Antwort.

/var ist bei mir keine eigenen Partition.
Wie soll ich das verstehen, mit /var vollgelaufen?

Viele Grüße
f4rr3ll
Posts: 36
Joined: 2008-03-09 23:36
Location: Schweitenkirchen
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by f4rr3ll »

Wenns keine eigene Partition ist hat sich das von Joe erledigt.
Wäre var ne eigene Partition und wäre voll würde ebenfalls das OS einfrieren und nichts mehr Dokumentieren.
Gruß Sven
User avatar
Joe User
Project Manager
Project Manager
Posts: 11183
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by Joe User »

F4RR3LL wrote:Wenns keine eigene Partition ist hat sich das von Joe erledigt.
Nope.
F4RR3LL wrote:Wäre var ne eigene Partition und wäre voll würde ebenfalls das OS einfrieren und nichts mehr Dokumentieren.
Das passiert auch dann, wenn /var keine eigenständige Partition ist...
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
User avatar
Joe User
Project Manager
Project Manager
Posts: 11183
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by Joe User »

msnet wrote:Wie soll ich das verstehen, mit /var vollgelaufen?
Wie siehts z.B. mit grossen (temporären) Logfiles etc. aus?
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
f4rr3ll
Posts: 36
Joined: 2008-03-09 23:36
Location: Schweitenkirchen
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by f4rr3ll »

Joe User wrote: Das passiert auch dann, wenn /var keine eigenständige Partition ist...
Jop wobei ich nu davon ausging das er merkt wenn / voll ist .
msnet
Posts: 5
Joined: 2009-05-28 09:31
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by msnet »

Hallo und vielen Dank für die Hinweise ,

also, auf / (wo var ja auch drin liegt) sind noch einige Gigabyte frei.
Die Festplatte ist also nicht voll.

In /var/lib/nobody/Maildir/new habe ich aber auf einem der Server 87243 Dateien (Mails) gefunden, auf dem anderen 12120 Dateien.
Ich habe diesen Mailmüll gelöscht. das waren alles Mails von cronjobs.

Könnte das ein Problem gewesen sein?
msnet
Posts: 5
Joined: 2009-05-28 09:31
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by msnet »

Tja, soeben ist wieder einer der zwie ohne Hinweise abgestürzt.
In den letzte Jahren habe ich sowas immer selbst hinbekommen :-(

Diesmal hatte ich top auf der ersten Konsole nicht mitlaufen.
Ich fand dann aber folgendes:

Log: Util_GetProcessName: Error: cannot open /proc10886/status
Log: Util_GetProcessName: Error: cannot open /proc23278/status
Log: Util_GetProcessName: Error: cannot open /proc3654/status
Log: Util_GetProcessName: Error: cannot open /proc19238/status
Log: Util_GetProcessName: Error: cannot open /proc18514/status
Log: Util_GetProcessName: Error: cannot open /proc6806/status
Log: Util_GetProcessName: Error: cannot open /proc11787/status
Log: Util_GetProcessName: Error: cannot open /proc7512/status
usw....

Kennt jemand eine Firma, die sich darum kümmern kann?
Oder kann man da Suse selbst beauftragen?
Ich frage jetzt mal ein paar Firmen an die ich in Google finde...

Bin für alle Hinweise dankbar.
Roger Wilco
Posts: 5923
Joined: 2004-05-23 12:53
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by Roger Wilco »

msnet wrote:

Code: Select all

Log: Util_GetProcessName: Error: cannot open /proc10886/status
Log: Util_GetProcessName: Error: cannot open /proc23278/status
[...]
Wenn das wirklich so ausgegeben wird, fehlt in dem Pfad ein Slash zwischen /proc und der PID. Je nachdem, wie komplex die Software ist und du den Quelltext besitzt, könntest du den Fehler eventuell selbst behben. Auf jeden Fall würde ich aber den Hersteller der Software informieren und ggf. den Bugtracker (falls vorhanden) nach diesem Problem durchsuchen.
msnet wrote:Oder kann man da Suse selbst beauftragen?
Nein. Novell ist ja nicht Hersteller der Software und du hast keinen Wartungsvertrag, oder?
msnet
Posts: 5
Joined: 2009-05-28 09:31
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by msnet »

Hallo,

Problem besteht weiterhin. Server stürzt nach ca. 4-5 Tagen ab.
zu /proc10886/status: Ja, da ist ein Slash zwischen Proc und der pid, hatte ich vergessen abzutippen vom Screenshot der VMwareconsole.

Angeschriebene Firmen die professionellen Liniux Support bieten, möchten da nicht an.
Ein Anbieter war dran und hat auch nix gefunden.
Nichtmal für Geld scheint jeamnd das Problem zu finden.

Hir noch neue Hinweise: Es sieht so aus als würde die Uhrzeit auf dem Server einfach stehen bleiben.
Ich habe mir ein Script geschrieben, dass jede Minute verschiedene Dinge wie die Ausage von top, free, Arbeitsverzeichnisse der Apacheprozezze, ps x usw. in Textdateien schreibt.

Die Serveruhr bleibt einfach stehen und die Dateien werden noch ca. einen Stunde lang überschrieben, die Logfiles bleiben auch ca. 1 Stunde vor dem Absturz stehen und es gibt dann ellenlange Logfiles, alle mit genau derselben Uhrzeit.

Das macht der Server dann noch ca. eine Stunde lang und verabschiedet sich dann ganz.

Sowas hatte ich noch nie und es ist wirklich seltsam, dass sich da selbst Firmen die in Google Werbung für Linuxsupport schalten, da nicht dranwollen.

Gibts hier im Forum keine Vollblut Linuxprofis denen diese Fehlerbeschreibung etwas sagt?
User avatar
Joe User
Project Manager
Project Manager
Posts: 11183
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by Joe User »

Wenn wirklich die Systemuhr stehenbleibt, dann ist es ein Bug in Deinem VMWare...
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
archetrix
Posts: 1
Joined: 2010-04-15 08:14
 

Re: unregelmäßige Abstürze von 2 Opensuse 11 Servern

Post by archetrix »

Auch auf die Gefahr hin wegen Aufwärmens eines alten Threads für Unmut zu sorgen ....

Ich habe hier das gleiche Problem und kann eine teilweise Lösung anbieten.
Wir haben hier noch ein recht betagtes VMware Server 1.0.3 Setup laufen und darauf die VM sukzessive natürlich geupdated und sind auch mit der Version 11 von OpenSuSE ziemlich unglücklich was die Stabilität unter VMware anbelangt.
Dann haben wir einem Hinweis von VMware folgend ein paar Änderungen vorgenommen, die bei einem Großteil der VM Erfolg hatte. Es ist also kein Allheilmittel, aber vielleicht hilft es hier jemandem weiter.

1. OpenSuSE's openvmware-tools deinstallieren.
2. Die VMware-Tools installieren - notfalls kompilieren lassen.
- bei uns ließen sich nie alle Module kompilieren, aber die wichtigsten gingen.
3. Der default Startoption in der Datei /boot/grub/menu.lst folgende Startparameter hinzufügen: 'clocksource=pit noapic nolapic'
(Wer sich für LILO oder andere Boot-Methoden entschieden hat weiss wo er die entsprechenden Stellen dort findet und anpasst)
4. VM runterfahren und die entsprechende *.vmx -Datei der VM im editor bearbeiten.
- die Zeile 'tools.syncTime = "TRUE"' finden oder hinzufügen.
5. VM wieder hochfahren, alles kurz testen und dann abwarten.

Da ich wie gesagt nicht alle meine VM damit "heilen" konnte bin ich für jeden hier noch nicht gebrachten Tipp dankbar.
Den Hinweis auf die stehende Uhr werde ich bei meinen Servern auch mal prüfen. Das war bisher nicht aufgefallen, weil hier keine so log-wütigen Prozesse wie es ein Mailserver ist laufen.

Danke und Grüße