Regelmäßiger unerklärlicher spontaner Reboot

Alles was in keine andere Systemkategorie passt
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Hallo,

suche Vorschläge zur Ursachen- und Lösungsfindung: Unser gemieteter Rootserver bootet ca. alle drei Stunden ohne erkennbaren Grund. In den Logs ist nichts zu finden. Nach einem Hardwarecheck war 18 Tage Ruhe und dann ging es plötzlich wieder los. Jetzt haben wir die Hardware tauschen lassen, aber auch das hat nichts gebracht.

Es handelt sich um ein Dual-Core-System mit AMD Opteron(tm) Processor 1216 und 6 GB RAM.
Ubuntu 8.04 LTS, Kernel 2.6.24-23-generic.
Plesk Control Panel-Version psa v8.6.0_build86080722.00 os_Ubuntu 8.04

Wir benutzen das System wie vorkonfiguriert von S4Y, haben lediglich noch SpamDyke eingebunden.

Danke,
Manfred
Roger Wilco
Posts: 5923
Joined: 2004-05-23 12:53
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by Roger Wilco »

User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

Versuch mal noapic als Kernel-Parameter... hilft manchmal bei AMD-Systemen mit unerklärlichen Ausfallerscheinungen.
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time
grandpa
Posts: 2
Joined: 2009-02-04 19:36
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by grandpa »

Wir hatten mal ein ähnliches Problem (unerklärliche Serverneustarts) und schuld daran war eine schwächelnde USV. Sollte aber bei S4Y kein Thema sein...

Gruß
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Wie habt ihr das denn rausgefunden?
grandpa
Posts: 2
Joined: 2009-02-04 19:36
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by grandpa »

... ist schon ein Weilchen her, aber - ich meine - die "powerfail's" wurden unter ILO angezeigt (HP-Server). Nach dem Entfernen des Datenkabel (USV->Server) blieb der Server "oben" und mit Austausch der USV war dann auch wieder Ruhe.

Gruß
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Am 17.04. gegen 1:xx nachts war der letzte Reboot, danach war Ruhe.

Bis heute morgen 03.05 um 3:55. Seitdem geht das Spiel wieder los.

Beim letzten mal fing es am 05.04. um 4:05 an.

Das ist doch zum Verrücktwerden.
User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

Hast Du mal noapic versucht?
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Ja, hat leider auch nichts geändert.
User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

OK, dann bleiben noch die anderen üblichen Verdächtigen: Wie sieht es mit ACPI und NUMA aus? Ich habe mich mit dem Ubuntu 2.6.24er Kernel auch schon mal gezofft. Was mir jetzt noch einfällt: statt -generic mal den Ubuntu -server Kernel versuchen, oder ggf. mal einen Eigenbau (aktuell ist 2.6.29.2) testen.
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time
gierig
Posts: 297
Joined: 2002-10-15 16:59
Location: WHV
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by gierig »

Ubuntu Kernel macht hier auf dem Heim Server (ist eher ein Aufgebohrter Desktop) mit unter mal Probleme
allerdings keine Hänger sondern eher die (soft)Raid1 Platten beim Booten richtig ansprechen.
Denk aber das es eher das billige Mutterbrett ist.


Hardware wurde komplett getauscht ? oder nur Teile ? Hast du ne Serielle Konsole ?
Dann villeicht mal das Memtest.bin von Bootloader starten und durchlaufen lassen.
Hatte schon edliche "kompatible" Speicher Bausteine die ich so dem Händler wieder
auf dem Tisch geknallt habe.

Auch ein Blick auf die Cron Jobs könnte sich lohnen, evt. leuft da was mit der Zeit aus dem Ruder.
Wenns ganz dumm leuft hast du ein Fehlerhaftes Installieres Paket. Da hilft dann nur Neuinstallaion der Pakete.
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Bin der Sache näher gekommen. Nachdem Booten startet md1_resync. Irgendwann steht der dann bei 99% und dann erfolgt ein Reset und das Spiel geht wieder von vorne los.

Code: Select all

	
#cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb3[0] sda3[1]
      464663936 blocks [2/2] [UU]
      [===============>.....]  resync = 79.1% (367643648/464663936) finish=36.3min speed=44487K/sec

md0 : active raid1 sdb1[0] sda1[1]
      97536 blocks [2/2] [UU]

unused devices: <none>

Code: Select all

# mdadm --detail /dev/md1
/dev/md1:
        Version : 00.90.03
  Creation Time : Tue Jan  6 17:20:31 2009
     Raid Level : raid1
     Array Size : 464663936 (443.14 GiB 475.82 GB)
  Used Dev Size : 464663936 (443.14 GiB 475.82 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Mon May  4 14:41:03 2009
          State : active, resyncing
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

 Rebuild Status : 78% complete

           UUID : 029cf4c9:25a67d89:7792c71e:7dc17aa4
         Events : 0.713

    Number   Major   Minor   RaidDevice State
       0       8       19        0      active sync   /dev/sdb3
       1       8        3        1      active sync   /dev/sda3



Bedeutet dies, das eine Platte getauscht werden muss und wenn ja, welche? Oder 'spinnt' nur der Resync?
manfredu
Posts: 6
Joined: 2009-04-10 14:01
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by manfredu »

Habe jetzt die defekte Platte mit smartctl rausgefunden und bis zum Austausch auf faulty gesetzt. Damit gibt es keine resyncs mehr und damit auch keine ständigen Neustarts. :-)
gehtnix
Posts: 3
Joined: 2009-05-23 10:41
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by gehtnix »

ich habe das selbe problem auf meinem rootserver (bei webspace-verkauf.de):
2.6.18-028stab060.8-ent #1 SMP Mon Feb 9 20:49:42 MSK 2009 i686 GNU/Linux

seit ungefähr einem monat startet der server selbständig alle paar tage neu, ohne dass ich irgendeine neue software installiert hätte.
in den logs finde ich nichts auffälliges:

Code: Select all

May 23 09:48:01 host CRON[13460]: (pam_unix) session opened for user root by (uid=0)
May 23 09:48:01 host /USR/SBIN/CRON[13461]: (root) CMD (sleep 69; /root/confixx/confixx_counterscript.pl)
May 23 09:49:11 host CRON[13460]: (pam_unix) session closed for user root
May 23 09:50:01 host CRON[4039]: (pam_unix) session opened for user root by (uid=0)
May 23 09:50:01 host /USR/SBIN/CRON[4041]: (root) CMD (sleep 69; /root/confixx/confixx_counterscript.pl)
May 23 09:50:01 host CRON[4040]: (pam_unix) session opened for user www-data by (uid=0)
May 23 09:50:01 host /USR/SBIN/CRON[4042]: (www-data) CMD ([ -x /usr/lib/cgi-bin/awstats.pl -a -f /etc/awstats/awstats.conf -a -r /var/log/apache/access.log ] && /usr/lib/cgi-bin/a
wstats.pl -config=awstats -update >/dev/null)
May 23 09:50:01 host CRON[4040]: (pam_unix) session closed for user www-data
May 23 09:51:10 host CRON[4039]: (pam_unix) session closed for user root
May 23 09:52:01 host CRON[20173]: (pam_unix) session opened for user root by (uid=0)
May 23 09:52:01 host /USR/SBIN/CRON[20175]: (root) CMD (sleep 69; /root/confixx/confixx_counterscript.pl)
May 23 09:52:16 host shutdown[21714]: shutting down for system halt
May 23 09:52:17 host init: Switching to runlevel: 0
May 23 09:52:17 host authdaemond: stopping authdaemond children
May 23 09:52:17 host mysqld[15662]: 090523  9:52:17 [Note] /usr/sbin/mysqld: Normal shutdown
May 23 09:52:17 host mysqld[15662]: 
May 23 09:52:17 host mysqld[15662]: 090523  9:52:17 [Note] /usr/sbin/mysqld: Shutdown complete
May 23 09:52:17 host mysqld[15662]: 
May 23 09:52:17 host mysqld_safe[22436]: ended
May 23 09:52:18 host postfix/master[15732]: terminating on signal 15
May 23 09:52:19 host saslauthd[11519]: server_exit     : master exited: 11519
May 23 09:52:19 host snmpd[32450]: Received TERM or STOP signal...  shutting down... 
May 23 09:52:19 host sshd[7733]: Received signal 15; terminating.
May 23 09:52:19 host spamd[28256]: spamd: server killed by SIGTERM, shutting down 
May 23 09:52:19 host kernel: Kernel logging (proc) stopped.
May 23 09:52:19 host kernel: Kernel log daemon terminating.
May 23 09:52:20 host exiting on signal 15
May 23 09:53:11 host syslogd 1.4.1#18: restart.
May 23 09:53:11 host kernel: klogd 1.4.1#18, log source = /proc/kmsg started.
bin schon echt am verzweifeln. habe google rauf und runter abgesucht nach irgendwelchen tools die mir hier helfen könnten, leider ohne erfolg.
ich hoffe jemand kann mir hier helfen. [-o<
vielen dank im voraus
User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

Wirf mal bitte Deine dmesg und dmesg.old auf ein Pasteboard. Vielleicht gibt das ja Aufschluss...
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time
gehtnix
Posts: 3
Joined: 2009-05-23 10:41
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by gehtnix »

hallo jfreund,
leider hast du hier einen weiteren wunden punkt erwischt. mit dmesg scheint es probleme bei den letzten debian releases gegeben zu haben. hab schon so oft versucht den bootlogd zu aktivieren. hat eber nicht gefunzt. würde z.B. syslog auch ausreichen?

btw, was ist ein pasteboard? noch nie was davon gehört.
User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

gehtnix wrote:hallo jfreund,
leider hast du hier einen weiteren wunden punkt erwischt. mit dmesg scheint es probleme bei den letzten debian releases gegeben zu haben. hab schon so oft versucht den bootlogd zu aktivieren. hat eber nicht gefunzt. würde z.B. syslog auch ausreichen?
Du kannst auch mal in /var/log/messages nach relevanten Informationen suchen. An die dmesg-Ausgabe kommst Du aber auch mit dem Shell-Befehl `dmesg` (leider nur für die aktuelle, aber das ist schon mal besser als nix).
gehtnix wrote:btw, was ist ein pasteboard? noch nie was davon gehört.
Eine Webanwendung, die wie eine Zwischenablage funktioniert und einen Text für eine größere Zielgruppe zugänglich macht. Gerade bei längeren Konfigurationsdateien, Log-Auszügen etc. ist es angenehmer mit einem Pasteboard zu arbeiten, als die Auszüge hier im Forum zu posten. Wenn Du eines suchst, hier wirst Du fündig: http://paste.my-universe.com/
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time
gehtnix
Posts: 3
Joined: 2009-05-23 10:41
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by gehtnix »

das problem mit dmesg betrifft auch die konsol-version. ich bekomme keinen einzigen output. am auf google jede menge leute mit dem selben prob gefunden. die lösungsansätze bin ich durchgegangen, hat aber nicht geklappt. das einzige was ich noch nicht probiert habe ist auf eine ältere version von bootlog umzusteigen. das muss ich aber in aller ruhe durchgehen.

zu den einträgen in syslog muss ich sagen, dass ich mir immer die letzte stunde vor den neustarts durchsehe, aber nichts auffälliges finden kann.
ich dachte mir es gibt vielleicht ein tool, dass eben solche probleme aufzeigen kann (z.B. fehlerhafte platten, überhitzung der cpu, ...)
jfreund wrote: Eine Webanwendung, die wie eine Zwischenablage funktioniert und einen Text für eine größere Zielgruppe zugänglich macht. Gerade bei längeren Konfigurationsdateien, Log-Auszügen etc. ist es angenehmer mit einem Pasteboard zu arbeiten, als die Auszüge hier im Forum zu posten. Wenn Du eines suchst, hier wirst Du fündig: http://paste.my-universe.com/
und wieder einmal was neues dazugelernt :)
User avatar
daemotron
Administrator
Administrator
Posts: 2641
Joined: 2004-01-21 17:44
 

Re: Regelmäßiger unerklärlicher spontaner Reboot

Post by daemotron »

Um die Hardware zu prüfen, hast Du mehrere Möglichkeiten. Um die Festplatten zu untersuchen, haben sich die smartmontools als Standard etabliert. Wenn Du bestimmte Daten wie CPU-Temperatur, Festplattentemperatur, Lüfterdrehzahlen etc. aufzeichnen möchtest (was in Deinem Fall vielleicht sinnvoll wäre, um Anstiege vor Abstürzen aus den Graphen zu erkennen), bietet sich ein Monitoring-Tool wie Munin oder Nagios an (letzteres musst Du z. B. mit PNP noch aufrüsten, damit es auf Grafiken aus den gesammelten Daten malt).
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time