Top->Data Corruption, bitte Daten sichern!

From: Stefan Hagen <sh_at_uugrn.org>
Date: Wed, 22 Apr 2020 09:12:24 +0200
Guten Morgen,

Top lief gestern und heute Nacht durch. Allerdings gibt es dennoch
Grund zur Sorge, da ZFS korrumpierte Daten gefunden hat und es gestern
Nacht einige Core Dumps gab.

<ACHTUNG>
Ich habe das Backup Script deaktiviert.

	1. Es ist mir unbekannt ob die Probleme mit Top das Backup kaputt
       machen oder nicht.
	2. Das Backup generiert massiv IO, was für diese Art von Fehler
       anfällig ist.
    3. Die Maschine läuft ohne ECC Ram, das heißt ZFS funktioniert
       nicht so zuverlässig wie es das könnte.

Falls ihr wichtige Daten auf euren Jails habt, bitte sichert die
möglichst bald.
</ACHTUNG>

Ich bin mir noch nicht sicher wie wir weiter verfahren:
	- Top zur Analyse offline nehmen
	- Top laufen lassen und möglichst schnell migrieren

Ich tendiere zu letzterem. Gibt es Gegenmeinungen?

Details:

# tail /var/log/messages
Apr 21 06:00:04 top4 kernel: pid 71162 (zfs), jid 0, uid 0: exited on signal 11 (core dumped)
Apr 21 07:01:21 top4 kernel: pid 75848 (httpd), jid 6, uid 80: exited on signal 11
Apr 21 08:00:04 top4 kernel: pid 80272 (zfs), jid 0, uid 0: exited on signal 11 (core dumped)
Apr 21 08:14:34 top4 kernel: pid 81457 (httpd), jid 6, uid 80: exited on signal 11
Apr 21 10:14:30 top4 kernel: pid 90530 (php-cgi), jid 19, uid 80: exited on signal 11
Apr 21 15:22:11 top4 kernel: pid 92420 (httpd), jid 6, uid 80: exited on signal 11

(jid 0 ist host, jit 6 ist das uugrn jail, jid 19 ist das acme jail)

# zpool status -v
  pool: zroot
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://illumos.org/msg/ZFS-8000-8A
  scan: scrub repaired 0 in 0 days 13:21:01 with 0 errors on Fri Apr 17 17:40:24 2020
config:

        NAME          STATE     READ WRITE CKSUM
        zroot         ONLINE       0     0     0
          mirror-0    ONLINE       0     0     0
            gpt/zfs0  ONLINE       0     0     0
            gpt/zfs1  ONLINE       0     0     0
        logs
          mirror-1    ONLINE       0     0     0
            gpt/log0  ONLINE       0     0     0
            gpt/log1  ONLINE       0     0     0
        cache
          gpt/cache0  ONLINE       0     0     0
          gpt/cache1  ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:

        <0x229fe7>:<0xa688>

Das bedeutet, dass es zumindest eine unbekannte (vermutlich gelöschte
Datei, sonst würde der Dateiname da stehen) erwischt hat.

Von dem Fehler geht die Welt nicht unter. Es häufen sich aber die
Anzeichen, dass da was nicht stimmt.

Viele Grüße,
Stefan
-- 
UUGRN e.V. http://www.uugrn.org/
http://mailman.uugrn.org/mailman/listinfo/uugrn
Wiki: https://wiki.uugrn.org/UUGRN:Mailingliste
Archiv: http://lists.uugrn.org/
Received on 22.04.2020

This archive was generated by hypermail 2.3.0 : 22.04.2020 CEST