[SOLVED] HPE ProLiant Server - Smart Array Predictive Drive is Failed

HPE ProLiant DL380 Smart Array - Predictive drive is failed, logical drive degraded (interim recovery) & physical drive (predictive failure, failed).

Ini adalah catatan saya mengenai kendala pada hardisk server dikantor, pada awalnya saya menerima email alert dari iLO management yang menunjukan Predictive drive is failed, email alertnya sebagai berikut;

HPE iLO 5 AlertMail-006: (CAUTION) Smart Array - Predictive drive is failed: Port 1I Box 3 Bay 4

EVENT (11-Aug-2022 12:35): Smart Array - Predictive drive is failed: Port 1I Box 3 Bay 4 ACTION: If this drive is not part of a fault-tolerant volume, back up all data before replacing the drive and restore all data afterward (or) If this drive is part of a fault-tolerant volume, do not replace this drive unless the logical drive status is OK.

Integrated Management Log Severity: CAUTION
HPE iLO 5 AlertMail-010: (CAUTION) 1720-Slot 0 Drive Array - S.M.A.R.T. Hard Drive(s) imminent failure:Port: 1I, box:3, bay: 4 (SAS) Ensure all other drives in the array are online! Back up data before replacing drive(s) if using RAID 0. Action: Replace drive.

EVENT (11-Aug-2022 15:15): 1720-Slot 0 Drive Array - S.M.A.R.T. Hard Drive(s) imminent failure:Port: 1I, box:3, bay: 4 (SAS) Ensure all other drives in the array are online! Back up data before replacing drive(s) if using RAID 0. Action: Replace drive.

Integrated Management Log Severity: CAUTION

Dari email alerts di atas, saya langsung login ke iLO management dan benar terdapat warning pada Storage bahwa Logical Drive 01 Status Degraded dan Physical Drive in Port 1| Box 3 Bay 4 Status Degraded (Predictive failure).

Smart Array Predictive drive is failed - ITSTAFF.web.id

Setelah Googling, saya menemukan beberapa rujukan;

HPE ProLiant Server - Smart Array Controllers, Hard Drive Predictive Failure Troubleshooting

ISSUE:
Occasionally, POST or the HPE Insight Management Agents will report predictive failures on one or more hard drives.

SOLUTION:
No probing diagnostics are required.
Nevertheless, there has been historical instances in which issues involving the hard drive firmware may have triggered a false S.M.A.R.T. predictive failure event. As such, it is highly recommended that the firmware on the hard drive is upgraded before concluding that the hard drive is in a predictive failure state.
HP DL380 G5 Predictive failure of a new drive

This is a Smart Array P400 controller, so the machine is of the ProLiant G5-era, placing it as more than three years-old and out of standard warranty. Before going with another replacement drive, I'd suggest updating the firmware of your RAID controller, since misreporting is a symptom of some of the early firmware revisions.

Solusinya adalah

Melihat dari rujukan diatas, bahwa ada 2 solusi, yang pertama adalah memperbaharui firmware controller storage dan yang kedua adalah mengganti hardisk (jika hardisk mengalami kerusakan). Namun hal pertama yang saya lakukan adalah cek GARANSI dari server ini, berikut detailnya;

HPE ProLiant DL380 Gen10 server - Pembelian di bulan Oktober 2019

  • Storage: 4 x HDD 1.2TB 12G SAS 10K SFF 2.5" with RAID5 Configuration: 3.3TB
  • Storage Controller: P408i-a/2GB (SATA & SAS), Firmware: HPE Smart Array P408i-a SR Gen10 version 1.99.
  • Warranty: Include 3-Year Parts, 3 -Year Labor, 3-Year Onsite support with 4-Hour & 24x7.

2022-08-11: Terima email alert, bahwa telah terjadi kegagalan hardisk pada Port 1| Box 3 Bay 4 dengan pesan error Logical Dirve 01: Degraded & Physical Drive: Degraded (Predictive failure). Setelah mengetahui bahwa server masih ada garansi, dilihat dari pembelian server di bulan Oktober 2019 dengan garansi selama 3 tahun, berarti garansi server ini masih ada sampai Oktober 2022. Saya pun menghubungi vendor untuk klaim garansi. Klaim diterima, vendor akan bantu open ticket RMA (Return Merchandise Authorization) ke HPE.

2022-08-12: Googling dan mendapatkan rujukan seperti di atas, serta melakukan backup dengan Windows Server Backup ke hardisk eksternal buat jaga-jaga.
2022-08-13: Weekend
2022-08-14: Weekend
2022-08-15: Vendor memberitahu bahwa ticket sudah dibuka dengan case number 5366XXXXXX

2022-08-16: Dari hasil klaim, dinyatakan hardisk rusak dan akan dilakukan pergantian hardisk baru. Atur jadwal untuk mengganti hardisk yang akan dibantu oleh Engineer HPE, berikut detailnya;
CE ACTION PLAN
- System down/Business Impact (Yes/No): No
- Downtime required (Yes/No) & No. of Hrs: No
- Is this a repeat issue (Yes/No): No

Part Ordered: 872479-B21 refer to 872737-001 HDD 1.2TB 12G SAS 10K SFF 2.5"

WHAT: Replace Drive Port 1| Box 3 Bay 4
WHY: Predictive drive is failed Port 1| Box 3 Bay 4
WHO: HPE Onsite CE
WHEN: As per customer schedule

Tips/Suggestion notes: "Kami menyarankan Anda untuk selalu melakukan backup data sebelum teknisi kami sampai dilokasi dan melakukan perbaikan.
We suggest you to always back up your data before our engineer onsite and perform the repair."

2022-08-17: Hari Kemerdekaan Republik Indonesia
2022-08-18: Pada jam 00:05, saya menerima email alert kembali dari iLO management, setelah dicek ternyata terjadi perubahan alert warning pada Storage bahwa Logical Drive 01 Status Degraded (Interim recovery) dan Physical Drive in Port 1| Box 3 Bay 4 Status Failed.
Smart Array Predictive drive is failed - ITSTAFF.web.id
Di jam 10:00, saya langsung minta dijadwalkan hari ini dengan alternatif besok untuk pergantian hardisk dan telah ditentukan bahwa Engineer HPE akan on site esok hari.

2022-08-19: Jam 11:40, hardisk baru tiba dikantor, dikirim via DHL. Jam 14:25, telah dilakukan pergantian hardisk oleh Engineer HPE, dengan sistem hot swap tanpa mematikan server, yaitu cabut hardisk yang rusak dan pasang hardisk baru.

Foto sebelum, hardisk di Port 1| Box 3 Bay 4 dengan kondisi rusak. Cabut hardsik yang rusak dengan menekan tombol yang merah, lalu tarik. Jika hardisk yang rusak sudah keluar dari server, pasang hardisk yang baru.
HPE ProLiant Smart Array Predictive drive is failed - ITSTAFF.web.id

Gambar dibawah ini adalah tangkapan setelah mengganti hardisk yang baru, proses membangun kembali RAID5.
Smart Array initiate the rebuild process automatically - ITSTAFF.web.id

Jam 15:40 proses Rebuilding RAID5 telah selesai, hanya butuh waktu ±75 menit dengan data sekitar 1TB di dalamnya.
Smart Array initiate the rebuild process automatically - ITSTAFF.web.id

Foto sesudah hardisk diganti dan Rebuilding RAID5 selesai.
HPE ProLiant Smart Array Predictive drive is done - ITSTAFF.web.id

Ketika mengganti hardisk ini saya merasa khawatir karena akan memformat semua isi hardisk, apalagi kalau datanya sampai hilang. Walaupun ada backup (belum tentu hasilnya backupnya bisa di restore 😂) karena belum di uji coba. Tapi sudah dijelaskan di email oleh HPE bahwa tidak ada business impact dan system downtime dan dibantu pergantian hardisk-nya oleh Engineer HPE serta dengan rujukan dibawah ini yang membuat saya sedikit lega (walaupun ada perasaan was-was karena ini server production), bahwa proses pergantian hardisk ini aman dilakukan dengan sistem hot swap dan prosesnya rebuilding RAID5-nya pun cepat.

Proliant DL360 Raid5 Hot Swap Drive

Yes, in this case, you would pull the bad drive and insert the new drive. HP Smart Array controllers initiate the rebuild process automatically. This can be done hot, while the system is running.

Itu saja yang saya lakukan dalam melakukan Troubleshooting Server HPE ProLiant DL380 Smart Array Predictive Drive is Failed, RAID5 Hot Swap Drive. Semoga catatan ini bisa berguna buat saya dan kalian yang membacanya. Selanjutnya adalah catatan, kenapa saya memilih RAID5 pada server ini.