Top restart

From: Stefan Hagen <sh_at_uugrn.org>
Date: Mon, 20 Apr 2020 09:12:17 +0200
Hi Leute,

in den vergangenen Tagen (heute Nacht wieder) kam es zu ungeplanten 
Server Reboots. Aus noch unbekannten Gründen erscheinen im Log die
Zeilen:

Apr 20 03:30:13 top4 kernel: Fatal trap 9: general protection fault while in kernel mode
Apr 20 03:30:13 top4 kernel: cpuid = 2; apic id = 04
Apr 20 03:30:13 top4 kernel: instruction pointer        = 0x20:0xffffffff80b0dcc3
Apr 20 03:30:13 top4 kernel: stack pointer              = 0x28:0xfffffe045c2aaaa8
Apr 20 03:30:13 top4 kernel: frame pointer              = 0x28:0xfffffe045c2aaae0
Apr 20 03:30:13 top4 kernel: code segment               = base 0x0, limit 0xfffff, type 0x1b
Apr 20 03:30:13 top4 kernel:                    = DPL 0, pres 1, long 1, def32 0, gran 1
Apr 20 03:30:13 top4 kernel: processor eflags   = interrupt enabled, resume, IOPL = 0
Apr 20 03:30:13 top4 kernel: current process            = 0 (dbu_evict)
Apr 20 03:30:13 top4 kernel: trap number                = 9
Apr 20 03:30:13 top4 kernel: panic: general protection fault
Apr 20 03:30:13 top4 kernel: cpuid = 2
Apr 20 03:30:13 top4 kernel: KDB: stack backtrace:
Apr 20 03:30:13 top4 kernel: #0 0xffffffff80b4c437 at kdb_backtrace+0x67
Apr 20 03:30:13 top4 kernel: #1 0xffffffff80b0544e at vpanic+0x17e
Apr 20 03:30:13 top4 kernel: #2 0xffffffff80b052c3 at panic+0x43
Apr 20 03:30:13 top4 kernel: #3 0xffffffff80f894f9 at trap_fatal+0x369
Apr 20 03:30:13 top4 kernel: #4 0xffffffff80f8899d at trap+0x5d
Apr 20 03:30:13 top4 kernel: #5 0xffffffff80f68cfc at calltrap+0x8
Apr 20 03:30:13 top4 kernel: #6 0xffffffff822bc2b0 at dnode_buf_evict_async+0x60
Apr 20 03:30:13 top4 kernel: #7 0xffffffff80b5dca4 at taskqueue_run_locked+0x154
Apr 20 03:30:13 top4 kernel: #8 0xffffffff80b5efd8 at taskqueue_thread_loop+0x98
Apr 20 03:30:13 top4 kernel: #9 0xffffffff80ac8a23 at fork_exit+0x83
Apr 20 03:30:13 top4 kernel: #10 0xffffffff80f69cce at fork_trampoline+0xe
Apr 20 03:30:13 top4 kernel: Uptime: 4d1h23m4s

Worauf ein Reboot passiert. Zeitlich korreliert das mit dem Restic
Backup-Lauf und dem Cron-Daily.

Dennoch, an der Serverkonfiguration hat sich in letzter Zeit nichts
geändert. Tagsüber läuft Restic durch.

Da Restic viel Speicher braucht und Cron Daily auf allen Jails
gleichzeitig los läuft habe ich Restic jetzt eine Stunde nach vorne
verschoben. Mal sehen ob's hilft.

Der Fehler deutet am ehesten auf RAM-Fehler hin. Mangels KVM kann ich
das mit Memtest leider nicht prüfen. (oder geht das auch online?)

Ich beobachte das... ich hoffe Top hält die Migrationsphase noch durch.

Viele Grüße,
Stefan




-- 
Stefan Hagen | (gopher|https)://codevoid.de/0/gpg
CBD3 C468 64B4 6517 E8FB B90F B6BC 2EC5 52BE 43BA
-- 
UUGRN e.V. http://www.uugrn.org/
http://mailman.uugrn.org/mailman/listinfo/uugrn
Wiki: https://wiki.uugrn.org/UUGRN:Mailingliste
Archiv: http://lists.uugrn.org/
Received on 20.04.2020

This archive was generated by hypermail 2.3.0 : 20.04.2020 CEST