So analysieren Sie den Festplatten- oder SSD-Zustand auf Linux-Servern und NAS

Wenn wir einen Server mit haben Linux oder ein NAS-Server (der auch ein Linux-basiertes Betriebssystem hat) mit vielen Informationen darin, sowohl das Betriebssystem selbst als auch persönliche oder geschäftliche Dateien und Ordner, ist es wichtig, dass die Festplatten und SSD Laufwerke sind in gutem Zustand und werden nicht so schnell ohne Vorwarnung kaputt gehen. Aus diesem Grund ist es sehr wichtig, die Festplatte oder SSD unseres Servers kontinuierlich zu überwachen, um Datenverluste durch Beschädigungen zu vermeiden. Heute zeigen wir Ihnen in diesem Artikel alles, was Sie auf Ihrem Linux-Server überprüfen sollten, um den Zustand Ihrer Festplatten zu überprüfen.

Analysieren Sie den Festplatten- oder SSD-Zustand auf Linux-Servern und NAS

Was ist der SMART der Discs

Alle Festplatten und SSD-Laufwerke verfügen über eine Technologie namens SMART oder auch bekannt als SMART, was für „Self Monitoring Analysis and Reporting Technology“ steht. Diese in die Firmware von Festplatten und SSDs integrierte Technologie besteht darin, mögliche Fehler auf der Festplatte zu erkennen, um physische Fehler auf der Festplatte oder unerwartete Fehler auf SSD-Laufwerken aufgrund des Schreibens in den internen Flash-Speicher vorherzusehen. . Das Ziel von SMART ist es, Benutzer zu warnen, damit sie das Laufwerk ohne Datenverlust sichern und ersetzen können. Wenn wir den SMART ignorieren, wird irgendwann die Festplatte kaputt gehen und wir Daten verlieren, daher ist es wichtig, immer auf die SMART-Daten der Festplatten zu achten.

Um SMART nutzen zu können, ist es zwingend erforderlich, dass das BIOS bzw. UEFI des Servers mit dieser Technologie kompatibel und aktiviert ist, außerdem ist es auch zwingend erforderlich, dass die Festplatten diese einbinden. Heutzutage verwenden alle Server, Betriebssysteme und Festplatten diese Technologie, um Probleme auf der Festplatte zu erkennen. Wir könnten sagen, dass sie „universell“ ist und immer verwendet wird.

Diese Technologie ist für die Überwachung verschiedener Parameter der Festplatte verantwortlich, wie z. up), Zähler für neu zugewiesene Sektoren, Suchgeschwindigkeit (Suchzeit) und andere sehr fortgeschrittene Parameter, mit denen Sie wissen, was wichtig ist: ob die Festplatte bald ausfallen wird.

Intern hat SMART eine Reihe von Werten, die wir als „normal“ betrachten können, und wenn ein Parameter diese Werte verlässt, d. h. wenn der Alarm losgeht, erkennt das BIOS/UEFI dies und benachrichtigt das Betriebssystem, dass ein Fehler vorliegt Im System. Disc und das kann ernst sein. In Linux-Betriebssystemen haben wir die Möglichkeit, SMART-Tests durchzuführen, um zu überprüfen, ob die Festplatte ordnungsgemäß funktioniert. Außerdem haben wir die Möglichkeit, diese Tests zu programmieren, um die Auswirkungen auf die Leistung zu minimieren.

So zeigen Sie den Festplattenzustand an

In den meisten Linux-basierten Distributionen haben wir ein Paket namens smartmontools. Manchmal ist dieses Paket in unserer Distribution vorinstalliert, und manchmal müssen wir es selbst installieren. Dieses Paket enthält zwei verschiedene Programme:

  • smartctl : ist das Befehlszeilenprogramm, mit dem wir Festplatten und SSDs bei Bedarf überprüfen können, oder wir können seinen Betrieb über den typischen Cron im Betriebssystem programmieren.
  • smartd : ist ein Daemon oder Prozess, der überprüft, ob Festplatten oder SSDs in einem bestimmten Intervall keine Fehler hatten. Es ist in der Lage, jede Art von Warnung oder Festplattenfehler im Haupt-Syslog des Servers zu registrieren, und ermöglicht es auch, dieselben Warnungen und Fehler per E-Mail an den Administrator zu senden, damit er überprüfen kann, ob alles korrekt ist.

Das smartmontools-Paket ist für die Überwachung von Festplatten und SSD-Laufwerken zuständig, egal ob sie SATA-, SCSI-, SAS- oder NVME-Schnittstellen verwenden, es unterstützt jede Art von Datenschnittstelle. Natürlich ist dieses Programm völlig kostenlos.

Installation

Die Installation dieses Programms, falls es nicht standardmäßig auf Ihrer Linux-Distribution installiert ist, erfolgt über den Paketmanager Ihrer Distribution. Auf Debian-Betriebssystemen mit apt wäre es beispielsweise wie folgt:

sudo apt install smartmontools

Je nach Paketmanager Ihrer Distribution müssen Sie den einen oder anderen Befehl verwenden, wichtig ist, dass dieses Paket für alle Unix-basierten Distributionen und auch für Linux verfügbar ist, sodass Sie es problemlos auch unter FreeBSD installieren können.

Verwenden von smartctl

Um dieses Programm zu verwenden und den Zustand unserer Festplatte zu überprüfen, müssen wir zunächst wissen, wie viele Festplatten wir haben und wie die betreffenden Festplatten oder SSDs untersucht werden. Um zu wissen, wo sich die Festplatten befinden, müssen wir den folgenden Befehl ausführen:

df -h

Wir könnten auch fdisk verwenden, um die Liste der Festplatten zu erhalten, die wir auf unserem Server haben:

sudo fdisk -l

Diese Befehle zeigen uns eine Liste der Einheiten und auch der Partitionen. Wir müssen dieses Programm auf Festplatten- oder SSD-Ebene verwenden, nicht auf Partitionsebene. Im Allgemeinen finden wir in Linux-Systemen die Festplatten im Pfad /dev/sdX.

Sobald wir wissen, welches Laufwerk wir analysieren werden, um seinen Zustand durch SMART zu überprüfen, müssen wir wissen, dass es insgesamt zwei verschiedene Tests gibt, die wir durchführen können:

  • Kurztest – Dieser Test wird am häufigsten verwendet, um Festplattenprobleme zu erkennen. Bei der Durchführung dieses Tests werden uns die wichtigsten Fehler und Warnungen angezeigt, ohne dass die gesamte Festplatte im Detail analysiert werden muss. Wir können diesen kurzen Test über cron so planen, dass er wöchentlich durchgeführt wird. Auf diese Weise führt er einmal pro Woche diese Analyse durch und benachrichtigt uns, wenn er Fehler entdeckt hat. Es ist ratsam, diesen Test zu einem Zeitpunkt durchzuführen, an dem wenig oder kein Gebrauch stattfindet, es wird nicht empfohlen, ihn während der Arbeitszeit durchzuführen, besser im Morgengrauen.
  • Langer Test – Dieser Test kann je nach Laufwerk und dessen Kapazität recht lange dauern. Durch die Durchführung dieses umfassenden Tests werden uns alle Warnungen oder Fehler angezeigt, die auf der gesamten Festplatte gefunden werden. Wir können diesen langen Test mit cron so planen, dass er monatlich durchgeführt wird, das heißt, einmal im Monat führen wir diesen Test durch, um den Zustand der Festplatte zu überprüfen. Es ist ratsam, diesen Test zu einem Zeitpunkt durchzuführen, an dem die Festplatte wenig genutzt wird, beispielsweise in der Morgendämmerung, da sonst die Lese- und Schreibleistung sowie die Datenzugriffslatenz erheblich ansteigen.

Sobald wir die zwei Arten von Tests kennen, die wir verwenden können, müssen wir als erstes wissen, ob auf der Festplatte oder SSD SMART aktiviert ist:

sudo smartctl -i /dev/sda

Für den Fall, dass die Festplatte SMART unterstützt, aber nicht aktiviert ist, können wir sie aktivieren, indem wir den folgenden Befehl ausführen:

sudo smartctl -s on /dev/sda

Um alle SMART-Attribute des Herstellers der betreffenden Festplatte anzuzeigen, können wir den folgenden Befehl ausführen:

sudo smartctl -a /dev/sda

Um einen kurzen Test durchzuführen, führen wir Folgendes aus:

sudo smartctl -t short /dev/sda

Um einen langen Test durchzuführen, führen wir Folgendes aus:

sudo smartctl -t long /dev/sda

Sobald wir den kurzen oder langen Test durchgeführt haben, können wir den folgenden Befehl ausführen, um alle Ergebnisse anzuzeigen:

sudo smartctl -H /dev/sda

Wir empfehlen, die Manpages von smartctl zu lesen, wo Sie alle Befehle finden, die wir ausführen können, um die Möglichkeiten von SMART zu nutzen, aber die Hauptbefehle sind diejenigen, die wir Ihnen erklärt haben.

Auf welche Werte muss ich achten?

Wenn wir einen SMART-Test durchführen, wird eine große Anzahl von Attributen unserer Festplatte oder SSD angezeigt. Einige dieser Werte sind von entscheidender Bedeutung, auf die wir besonders achten sollten, da sie uns „Hinweise“ darauf geben könnten, dass die Festplatte sehr bald ausfallen wird:

  • Reallocated_Sector_Ct: ist die Anzahl der Sektoren, die aufgrund von Lesefehlern anderen Bereichen der Festplatte neu zugewiesen wurden. Dieser Fehler ist sehr typisch, wenn eine Festplatte sehr alt ist und sich dem Ende ihrer Nutzungsdauer nähert.
  • Spin_Retry_Count: ist die Anzahl der Versuche, die zum Booten des Datenträgers erforderlich waren. Dies weist darauf hin, dass ein schwerwiegendes Hardwareproblem auf dem Datenträger vorliegt und er beim nächsten Mal möglicherweise nicht gestartet wird.
  • Reallocated_Event_Count – Die Anzahl der erfolgreich oder erfolglos durchgeführten Neuzuweisungen. Je höher die Zahl, desto schlechter ist der Zustand der Festplatte.
  • Current_Pending_Sector: Anzahl der Sektoren, deren baldige Neuzuweisung aussteht.
  • Offline_Uncorrectable: Anzahl der nicht korrigierbaren Fehler beim Lesen oder Schreiben auf verschiedene Sektoren der Festplatte.
  • Multi_Zone_Error_Rate: Gesamtzahl der Fehler beim Schreiben eines Sektors.

In der folgenden Abbildung sehen Sie den Status einer WD Red 4 TB-Festplatte von unserem NAS mit dem XigmaNAS-Betriebssystem:

Im vorherigen Screenshot sehen Sie viele Informationen, aber wir müssen wissen, ob es sich um einen isolierten Fehler handelt oder ob unsere Festplatte bald ausfallen könnte.

Status der Festplatten im QNAP NAS

Wenn Sie einen QNAP-, Synology- oder ASUSTOR-NAS-Server haben, können Sie den SMART-Status Ihrer Festplatten und SSDs auch über das Betriebssystem mit Webzugriff sehen, Sie müssen sich nicht über SSH oder Telnet anmelden und irgendwelche Befehle ausführen . Im Beispiel unten haben wir einen QNAP-NAS-Server verwendet, aber der Prozess mit den anderen Herstellern wäre sehr ähnlich.

Das erste, was wir tun müssen, ist zum „ Speicher und Schnappschüsse ” Abschnitt, sobald Sie hier sind, klicken Sie auf “ Speicher / Festplatten “ und wir werden so etwas sehen:

Wenn wir auf „ Disc-Zustand “, müssen wir auswählen, welche Disc wir uns ansehen möchten. Wir können sowohl HDD-Festplatten als auch SSD-Laufwerke auswählen, egal um welchen Typ es sich handelt, da sie auch über interne SMART-Informationen verfügen, um festzustellen, ob ein Festplattenfehler vorliegt.

Im Menü „Zusammenfassung“ können wir den allgemeinen Status der Festplatte sehen, wenn es einen Fehler oder eine ernsthafte Warnung gibt, können wir auch den allgemeinen Zustand einfach und schnell sehen, ohne dass eine detaillierte Analyse des SMART durchgeführt werden muss Werte . Natürlich können wir auch den Verlauf der Festplattenzugriffe einsehen und ob es Probleme gegeben hat.

QNAP liefert uns zwar sehr leicht verständliche Informationen, aber falls wir alle Rohwerte sehen wollen, werden wir das auch ohne Probleme schaffen. Darüber hinaus werden wir eine zusätzliche Spalte haben, die uns den „Status“ mitteilt und ob er gut oder schlecht ist.

Wir können hier schnelle oder vollständige Tests durchführen, wir müssen nur die Testmethode auswählen und dann auf die Schaltfläche „Test“ klicken.

Schließlich können wir diese Tests auch sehr einfach programmieren, wir müssen nur wählen, ob wir den Schnelltest oder den vollständigen Test aktivieren und die Häufigkeit wählen: täglich, wöchentlich oder monatlich, außerdem können wir die Startzeit dieses Tests definieren.

Wie Sie sehen können, ist das Überprüfen und Verifizieren des Zustands von Festplatten und SSDs in einem Server etwas wirklich Wichtiges, um Datenverluste zu vermeiden. Wenn ein Fehler auftritt, ist es sehr wichtig, ein neues Laufwerk zu kaufen und ein Backup zu erstellen, um Datenverlust zu vermeiden. Darüber hinaus sollten wir auch den Status des RAID überprüfen, da wir den Verlust des gesamten Speicherpools verursachen könnten, insbesondere wenn wir ein ZFS RAID 0 oder Stripe konfiguriert haben.