Praktický prístup spoločnosti Gentlent k riešeniu zlyhania disku v našej serverovej konfigurácii. Tento príspevok pokrýva kroky, ktoré sme podnikli na identifikáciu, riešenie a vylepšenie nášho systému, aby sme predišli budúcim problémom, a to všetko bez ovplyvnenia našich zákazníkov.
Počas rutinného kontroly servera pred niekoľkými dňami sme si všimli znepokojujúci vzor: jeden z našich diskov bol už po druhý raz za mesiac vysunutý z RAID poľa. Stalo sa zrejmým, že tento disk zlyháva, čo spôsobilo, že malé RAID pole servera bolo v degradovanom stave.
Možnosť straty dát alebo výpadku v takýchto situáciách je obavou pre každý IT tím. Avšak, vždy sme kládli dôraz na integritu dát a spoľahlivosť systému. Vďaka našim pravidelným, bezpečným záložným protokolom a replikácii v reálnom čase pre kľúčové databázy sme boli pripravení. Tento prístup zabezpečil, že aj keď bol server v ohrození, naše operácie mohli pokračovať bez prerušenia a čo je dôležitejšie, bez ohrozenia akýchkoľvek zákazníckych dát.
Po zistení problému sme nezaháľali. Rýchlo sme zadovážili ďalšie SSD disky a pustili sa do modernizácie RAID polí na našich zariadeniach. Proces modernizácie prebiehal hladko pre druhý server, ktorý sme modernizovali len pre istotu, ale narazili sme na problém s prvým: jeho zavádzacia partícia bola na zlyhávajúcom disku.
Riešenie tohto problému vyžadovalo praktický prístup. Vyrazili sme na miesto, nahradili problematický disk a prekonfigurovali RAID pole. Tento proces trval niekoľko hodín, ale na jeho konci bol server opäť v prevádzke, akoby sa nič nestalo.
Keď sme identifikovali zlyhávajúci disk, naša okamžitá pozornosť bola zameraná na zabezpečenie integrity nášho RAID poľa a obnovenie plnej funkčnosti. Tu je stručný prehľad technických krokov, ktoré sme vykonali:
Najprv sme použili mdadm na preskúmanie stavu našich RAID polí:
sudo mdadm --detail /dev/md0
Tento príkaz nám pomohol potvrdiť, ktorý disk zlyháva. Pri pokuse o jeho opätovné pripojenie k softvérovému RAID poľu sme si všimli významný pokles rýchlosti zápisu v reálnom čase.
Našou prvou prekážkou bolo získať prístup k súborovému systému servera bez zavedenia zo skompromitovaného disku. Dosiahli sme to pomocou Live Ubuntu Server ISO, čo je pomerne jednoduché:
mountchrootfor i in /dev /dev/pts /proc /sys /run; do sudo mount -B $i /mnt$i; done sudo chroot /mnt
Po prístupe k shell sme pokračovali v príprave nového disku na integráciu do RAID poľa:
/dev/sdXsudo fdisk /dev/sdX
Po rozdelení disku bol ďalším krokom jeho integrácia do RAID poľa:
mdadmsudo mdadm --manage /dev/md0 --add /dev/sdX1
cat /proc/mdstat
Absencia zavádzacej partície na prežívajúcom disku bola kritickým problémom, ktorý sme potrebovali vyriešiť:
fdisksudo fdisk /dev/sdY
sudo mkfs.vfat -F 32 /dev/sdY1
/mnt/efisudo mount /dev/sdY1 /mnt/efi
sudo grub-install --target=x86_64-efi --efi-directory=/mnt/efi --bootloader-id=Ubuntu
fstabPosledným krokom bolo zaistiť, aby systém mohol automaticky pripojiť novú EFI partíciu pri štarte:
blkidblkid /dev/sdY1
/etc/fstabblkidUUID=<new-efi-partition-uuid> /boot/efi vfat umask=0077 0 1
Po dokončení týchto krokov sme reštartovali server, aby sme overili, že zotavenie bolo úspešné. Systém sa spustil normálne a všetky RAID polia fungovali podľa očakávania.
Počas tejto skúšky sme sa zamerali na udržanie kontinuity služieb pre našich zákazníkov. Vďaka našim preventívnym opatreniam a rýchlej reakcii sme to dokázali. Neboli ohrozené žiadne zákaznícke dáta a naše služby zostali online a plne funkčné.
Pri riešení tejto výzvy sme si uvedomili dôležitosť pravidelných kontrol systému, spoľahlivých záložných stratégií a schopnosti rýchlo reagovať na nepredvídané problémy. Sú to práve tieto praktiky, ktoré nám pomáhajú dodržať náš sľub spoľahlivých služieb pre našich zákazníkov.
Tom KleinChief Executive Officer
Gentlent GmbH
GentlentZákaznícka podporasupport@gentlent.com