Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
Počas rutinného kontroly servera pred niekoľkými dňami sme si všimli znepokojujúci vzor: jeden z našich diskov bol už po druhý raz za mesiac vysunutý z RAID poľa. Stalo sa zrejmým, že tento disk zlyháva, čo spôsobilo, že malé RAID pole servera bolo v degradovanom stave.
Možnosť straty dát alebo výpadku v takýchto situáciách je obavou pre každý IT tím. Avšak, vždy sme kládli dôraz na integritu dát a spoľahlivosť systému. Vďaka našim pravidelným, bezpečným záložným protokolom a replikácii v reálnom čase pre kľúčové databázy sme boli pripravení. Tento prístup zabezpečil, že aj keď bol server v ohrození, naše operácie mohli pokračovať bez prerušenia a čo je dôležitejšie, bez ohrozenia akýchkoľvek zákazníckych dát.
Po zistení problému sme nezaháľali. Rýchlo sme zadovážili ďalšie SSD disky a pustili sa do modernizácie RAID polí na našich zariadeniach. Proces modernizácie prebiehal hladko pre druhý server, ktorý sme modernizovali len pre istotu, ale narazili sme na problém s prvým: jeho zavádzacia partícia bola na zlyhávajúcom disku.
Riešenie tohto problému vyžadovalo praktický prístup. Vyrazili sme na miesto, nahradili problematický disk a prekonfigurovali RAID pole. Tento proces trval niekoľko hodín, ale na jeho konci bol server opäť v prevádzke, akoby sa nič nestalo.
Keď sme identifikovali zlyhávajúci disk, naša okamžitá pozornosť bola zameraná na zabezpečenie integrity nášho RAID poľa a obnovenie plnej funkčnosti. Tu je stručný prehľad technických krokov, ktoré sme vykonali:
Najprv sme použili mdadm
na preskúmanie stavu našich RAID polí:
sudo mdadm --detail /dev/md0
Tento príkaz nám pomohol potvrdiť, ktorý disk zlyháva. Pri pokuse o jeho opätovné pripojenie k softvérovému RAID poľu sme si všimli významný pokles rýchlosti zápisu v reálnom čase.
Našou prvou prekážkou bolo získať prístup k súborovému systému servera bez zavedenia zo skompromitovaného disku. Dosiahli sme to pomocou Live Ubuntu Server ISO, čo je pomerne jednoduché:
mount
a chroot
sa použili podľa tohto návodu na prístup k súborovému systému servera. Toto nám umožnilo vykonať zmeny v konfigurácii servera a RAID poľa. Tieto príkazy môžu vyzerať takto:
for i in /dev /dev/pts /proc /sys /run; do sudo mount -B $i /mnt$i; done sudo chroot /mnt
Po prístupe k shell sme pokračovali v príprave nového disku na integráciu do RAID poľa:
/dev/sdX
) sme vytvorili novú tablu oddielov a oddiely zrkadliace tie na existujúcich RAID diskoch.
sudo fdisk /dev/sdX
Po rozdelení disku bol ďalším krokom jeho integrácia do RAID poľa:
mdadm
na pridanie nového oddielu k existujúcemu RAID poľu.
sudo mdadm --manage /dev/md0 --add /dev/sdX1
cat /proc/mdstat
Absencia zavádzacej partície na prežívajúcom disku bola kritickým problémom, ktorý sme potrebovali vyriešiť:
fdisk
na vytvorenie novej systémovej partície EFI na prežívajúcom disku.
sudo fdisk /dev/sdY
sudo mkfs.vfat -F 32 /dev/sdY1
/mnt/efi
.
sudo mount /dev/sdY1 /mnt/efi
sudo grub-install --target=x86_64-efi --efi-directory=/mnt/efi --bootloader-id=Ubuntu
fstab
Posledným krokom bolo zaistiť, aby systém mohol automaticky pripojiť novú EFI partíciu pri štarte:
blkid
na získanie UUID.
blkid /dev/sdY1
/etc/fstab
: Pridali sme nový riadok pre EFI partíciu pomocou UUID získaného z blkid
.
UUID=<new-efi-partition-uuid> /boot/efi vfat umask=0077 0 1
Po dokončení týchto krokov sme reštartovali server, aby sme overili, že zotavenie bolo úspešné. Systém sa spustil normálne a všetky RAID polia fungovali podľa očakávania.
Počas tejto skúšky sme sa zamerali na udržanie kontinuity služieb pre našich zákazníkov. Vďaka našim preventívnym opatreniam a rýchlej reakcii sme to dokázali. Neboli ohrozené žiadne zákaznícke dáta a naše služby zostali online a plne funkčné.
Pri riešení tejto výzvy sme si uvedomili dôležitosť pravidelných kontrol systému, spoľahlivých záložných stratégií a schopnosti rýchlo reagovať na nepredvídané problémy. Sú to práve tieto praktiky, ktoré nám pomáhajú dodržať náš sľub spoľahlivých služieb pre našich zákazníkov.
Tom Klein
CEO
Gentlent GmbH
Gentlent
Zákaznícka podpora
support@gentlent.com