Skip to content
 

Ako sme sa zotavili z neúspešného disku

Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.

Tom KleinTom Klein · ~ 4 min čítania
Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
 

Počas rutinného kontroly servera pred niekoľkými dňami sme si všimli znepokojujúci vzor: jeden z našich diskov bol už po druhý raz za mesiac vysunutý z RAID poľa. Stalo sa zrejmým, že tento disk zlyháva, čo spôsobilo, že malé RAID pole servera bolo v degradovanom stave.

Možnosť straty dát alebo výpadku v takýchto situáciách je obavou pre každý IT tím. Avšak, vždy sme kládli dôraz na integritu dát a spoľahlivosť systému. Vďaka našim pravidelným, bezpečným záložným protokolom a replikácii v reálnom čase pre kľúčové databázy sme boli pripravení. Tento prístup zabezpečil, že aj keď bol server v ohrození, naše operácie mohli pokračovať bez prerušenia a čo je dôležitejšie, bez ohrozenia akýchkoľvek zákazníckych dát.

Po zistení problému sme nezaháľali. Rýchlo sme zadovážili ďalšie SSD disky a pustili sa do modernizácie RAID polí na našich zariadeniach. Proces modernizácie prebiehal hladko pre druhý server, ktorý sme modernizovali len pre istotu, ale narazili sme na problém s prvým: jeho zavádzacia partícia bola na zlyhávajúcom disku.


Oprava

Riešenie tohto problému vyžadovalo praktický prístup. Vyrazili sme na miesto, nahradili problematický disk a prekonfigurovali RAID pole. Tento proces trval niekoľko hodín, ale na jeho konci bol server opäť v prevádzke, akoby sa nič nestalo.

Keď sme identifikovali zlyhávajúci disk, naša okamžitá pozornosť bola zameraná na zabezpečenie integrity nášho RAID poľa a obnovenie plnej funkčnosti. Tu je stručný prehľad technických krokov, ktoré sme vykonali:


1. Identifikácia Problému

Najprv sme použili mdadm na preskúmanie stavu našich RAID polí:

sudo mdadm --detail /dev/md0

Tento príkaz nám pomohol potvrdiť, ktorý disk zlyháva. Pri pokuse o jeho opätovné pripojenie k softvérovému RAID poľu sme si všimli významný pokles rýchlosti zápisu v reálnom čase.


2. Štart z Live Image - Ubuntu Spôsob

Našou prvou prekážkou bolo získať prístup k súborovému systému servera bez zavedenia zo skompromitovaného disku. Dosiahli sme to pomocou Live Ubuntu Server ISO, čo je pomerne jednoduché:

  1. Pripraviť Live Média: Stiahli sme si ISO obraz Ubuntu Server a vytvorili bootovateľný USB kľúč.
  2. Štart do Živého Prostredia: Vložili sme USB kľúč a reštartovali server. Počas procesu zavedenia sme vybrali USB kľúč ako zavádzacie zariadenie.
  3. Vstúpiť do Shell v Live Session: Keď sa načítala live inštalácia Ubuntu Servera, klikli sme na tlačidlo "Pomoc" vpravo hore na obrazovke a vybrali "Vstúpiť do shell" na prístup k terminálu bez reálnej inštalácie obrazu.
  4. Pripojiť Potrebné Súborové Systémy: Príkazy ako mount a chroot sa použili podľa tohto návodu na prístup k súborovému systému servera. Toto nám umožnilo vykonať zmeny v konfigurácii servera a RAID poľa. Tieto príkazy môžu vyzerať takto:
    for i in /dev /dev/pts /proc /sys /run; do sudo mount -B $i /mnt$i; done
    sudo chroot /mnt


3. Príprava Nového Disku

Po prístupe k shell sme pokračovali v príprave nového disku na integráciu do RAID poľa:

  1. Identifikovať Nový Disk: Použili sme lsblk na výpis všetkých blokových zariadení a identifikáciu nového disku.
  2. Particionovanie Nového Disku: Pomocou fdisk na novom disku (/dev/sdX) sme vytvorili novú tablu oddielov a oddiely zrkadliace tie na existujúcich RAID diskoch.
    sudo fdisk /dev/sdX


4. Integrácia Disku do RAID Poľa

Po rozdelení disku bol ďalším krokom jeho integrácia do RAID poľa:

  1. Pridať Nový Oddiel do RAID: Použili sme mdadm na pridanie nového oddielu k existujúcemu RAID poľu.
    sudo mdadm --manage /dev/md0 --add /dev/sdX1
  2. Monitorovať Obnovu RAID: Sledovali sme proces obnovy, aby sme zaistili, že prebieha bez problémov.
    cat /proc/mdstat


5. Riešenie Boot Partície

Absencia zavádzacej partície na prežívajúcom disku bola kritickým problémom, ktorý sme potrebovali vyriešiť:

  1. Vytvoriť Novú EFI Partíciu: Použili sme fdisk na vytvorenie novej systémovej partície EFI na prežívajúcom disku.
    sudo fdisk /dev/sdY
  2. Formátovať EFI Partíciu: Následne sme formátovali novú EFI partíciu ako FAT32.
    sudo mkfs.vfat -F 32 /dev/sdY1
  3. Pripojiť EFI Partíciu: Pripojili sme novú EFI partíciu na /mnt/efi.
    sudo mount /dev/sdY1 /mnt/efi
  4. Znovu Inštalovať GRUB: Znovu sme nainštalovali GRUB na EFI partíciu, aby sme obnovili zavádzacie funkčnosti.
    sudo grub-install --target=x86_64-efi --efi-directory=/mnt/efi --bootloader-id=Ubuntu


6. Aktualizácia fstab

Posledným krokom bolo zaistiť, aby systém mohol automaticky pripojiť novú EFI partíciu pri štarte:

  1. Nájsť UUID Novej EFI Partície: Použili sme blkid na získanie UUID.
    blkid /dev/sdY1
  2. Upraviť /etc/fstab: Pridali sme nový riadok pre EFI partíciu pomocou UUID získaného z blkid.
    UUID=<new-efi-partition-uuid> /boot/efi vfat umask=0077 0 1


7. Overenie Zotavenia

Po dokončení týchto krokov sme reštartovali server, aby sme overili, že zotavenie bolo úspešné. Systém sa spustil normálne a všetky RAID polia fungovali podľa očakávania.


Bezproblémová Služba

Počas tejto skúšky sme sa zamerali na udržanie kontinuity služieb pre našich zákazníkov. Vďaka našim preventívnym opatreniam a rýchlej reakcii sme to dokázali. Neboli ohrozené žiadne zákaznícke dáta a naše služby zostali online a plne funkčné.

Pri riešení tejto výzvy sme si uvedomili dôležitosť pravidelných kontrol systému, spoľahlivých záložných stratégií a schopnosti rýchlo reagovať na nepredvídané problémy. Sú to práve tieto praktiky, ktoré nám pomáhajú dodržať náš sľub spoľahlivých služieb pre našich zákazníkov.


Zdieľajte článok


Tom Klein
Externý

Gentlent
Zákaznícka podpora
support@gentlent.com



Nedávne články

Chcete sa dozvedieť viac?
Dajte nám vedieť ešte dnes.

 
GentlentOficiálna webová stránka Gentlent. Oficiálne webové stránky Gentlent sú vždy prepojené z našej webovej stránky gentlent.com, alebo obsahujú rozšírený overený certifikát.
Skyline Dusseldorf