96449
Goto Top

ProLiant DL380 Gen10 Disk Media Error mit Raid Controller

Guten Abend Community,

Edit: Problem ist soweit gelöst. (oder verschoben, je nach Ansichtssache)
Kurzform: 
Disk gewechselt -> Parität bleibt bei 0% hängen -> Shutdown -> Reboot -> Raid OK.
Array immer noch defekt. chkdsk /r (mit der Annahme, dass ich danach eh Neu Aufsetzten kann)
Konnte aber danach die VMs sichern, sowie das Backup sicherstellen. 
Daher mal soweit abgeschlossen.


The Infos:

Server: ProLiant DL380 Gen10
Controller: HPE Smart Array P408i SR Gen 10
Hyper-V 2016 with 3 VMs

1 - Domain Controller
2 - Application Server
3 - Backup Server

2 logical Arrays

A1: 5x 900GB Raid 5
A2: 3x 480GB SSD Raid 5

The Problem:

Predicted Disk Failure @ A1-> Disk wurde durch einen HP Techniker ausgetauscht
Alles normal soweit. Disk Paritätsprüfung bleibt aber länger als sonst auf 0% stehen.

Nächster Tag:
Veeam Backup Meldung, dass die VM 1 - Domain Controller nicht gesichert werden konnte aufgrund von CRC Errors während der Synchronisation der vhd.
Die anderen 2 VMs wurden erfolgreich gesichert.

SSA / ILO / Windows Error Logs gecheckt:

SSA:
Logisches Laufwerk 1: Nicht wiederherstellbare Medienfehler auf Laufwerken während des letzten Umbaus oder einer Background Surface Analyse (ARM). Fehler werden automatisch behoben, wenn der Sektor/die Sektoren überschrieben wird/werden. Sicherung und Wiederherstellung sind empfehlenswert.

Für mich klingt das, dass das Raid mit der ersetzten Platte nicht sauber wiederhergestellt wurde und es dadurch defekte Blöcke auf dem Array hat.

Nochmals Rücksprache mit HP Support Techniker. Er meine, ich solle Firmwareupdates machen.

War für heute Abend geplant. Also nochmals ILO geprüft und ohh nice:

2tes Drive mit der Meldung:
900 GB SAS HDD in Port 2I : Gehäuse 3 : Schacht 5 steht ein Ausfall bevor.

Dies ist nicht die Disk, welche ersetzt wurde. sondern eine andere aber im gleichen Array (A1)

Nun meine eigentliche Frage(n):

Wie hoch ist die Chance, dass dieser Fehler durch Firmware verursacht wird?
Angenommen ich mache die Updates und reboote, besteht doch eine grosse chance, dass
der Hyper-V host nicht wieder hochfährt, wegen den defekten Sektoren im Array.

Wenn ich nun die neu angeschlagene Disk wechsle, denke ich, dass ich das Array komplett verliere oder sollte dies klappen?

Momentan mache ich ein manuelles Backup gewisser Daten auf dem Array (einfach zur Sicherheit)

Mein zweiter Plan wäre noch einen zweiten Server daneben zu stellen und dann die VMs verschieben, jedoch denke ich, dass es dort mit den CRC Errors auch Probleme geben wird.

Screenshots der Logs im Anhang


Eventlog ID 24606 ist die Disk, welche zuerst ausgetauscht wurde
Die zweite ist die Disk, welche neu angeschlagen ist.

Danke für eure Hilfe und einen schönen Abend

Various5
logs

Content-Key: 648157

Url: https://administrator.de/contentid/648157

Printed on: April 18, 2024 at 22:04 o'clock

Member: Pjordorf
Pjordorf Feb 04, 2021 at 21:26:48 (UTC)
Goto Top
Hallo,

Zitat von @96449:
Screenshots der Logs:
Bitte die Logs als Text und nicht als Bild auf irgendwelchen Quellen hier rein stellen. Danke. Auch Bilder kannst du hier rein stellen.

jedoch denke ich, dass es dort mit den CRC Errors auch Probleme geben wird.
Warum, hat denn der zweite Server auch und an den gleichen Stellen CRC Fehler?

Gruß,
Peter
Mitglied: 96449
96449 Feb 04, 2021 at 21:39:14 (UTC)
Goto Top
Hallo Peter

Ok, passe ich gleich morgen an mit den Logs. Danke für die Info.

Der zweite Server ist in Ordnung.
Ich denke, dass die Vhd des virtuellen DCs im Bereich der defekten Sektoren im Array liegt und sich desshalb dieser nicht auf den neuen Server verschieben lassen würde.

Gruss,
Various5
Member: goscho
goscho Feb 05, 2021 at 15:22:34 (UTC)
Goto Top
Mahlzeit,

wenn es der einzige DC der Firma ist, würde ich zuerst einen zusätzlichen auf dem anderen Server installieren, Replikation einrichten und abwarten.
Macht der DC noch weiteres, File, Print, DHCP, etc.?
Mitglied: 96449
96449 Feb 10, 2021 at 07:14:21 (UTC)
Goto Top
Guten Tag zusammen

Das Problem konnte ich soweit lösen.

Nach einem manuellen Backup von allem, habe ich ein Chkdsk /r (Mit der Annahme, dass der Server nicht mehr startet) durchgeführt. dadurch konnte ich das Backup wieder verwendet und ein sauberes anfertigen.

Gruss Various5