Monitorovací systém: jak jsem zjistil, že jej potřebujeme

10
Monitorovací systém: jak jsem zjistil, že jej potřebujeme

Když jsem studoval FIT na VUT v Brně, vyjel jsem na 5 měsíců do Finska v rámci Erasmus programu. Po návratu zpět do Brna jsem si s kamarády našel ubytování na privátu, který jsme si museli nejdříve vybavit. A to byly počátky mého podnikání. Abych to vysvětlil – nákupem nábytku mi totiž došly úspory a já musel začít pracovat.

Byl jsem mladý, ambiciózní a měl jsem pocit, že umím všechno, a ještě k tomu lépe než ostatní. To byl asi ten důvod, proč jsem nikde nedostal práci, jakou bych si představoval. Zřídil jsem si tedy živnost a začal jsem působit jako „opravář“ počítačů (o počítače jsem se zajímal už od základní školy, nějaké znalosti a zkušenosti jsem měl). Ze začátku jsem pracoval v klasickém break-fix režimu (tzn. zákazníci volají jen v případě, že se něco pokazí). Výhodou je, že za nic nemáte odpovědnost. Nevýhodou naopak je, že se špatně plánují příjmy – nevíte, kdy se co rozbije.

Krůčky k prvnímu monitorovacímu systému

Postupem času jsem se dostal k menším firmám, které už měly nějaký server a alespoň tucet počítačů. Zde už to break-fix režimem dělat nešlo. Firmy chtěly mít jistotu, že se někdo stará o zálohy, aktualizaci počítačů a ponese odpovědnost, pokud se něco stane. Ze začátku jsem to řešil „hrubou silou“. Jednou měsíčně jsem ke každému zákazníkovi zašel, počítače ručně zkontroloval a udělal jsem aktualizace. Na severy jsem se připojoval vzdáleně každý týden, udělal jsem to stejné jako na stanicích a navíc jsem zkontroloval zálohy.

Tento přístup sice fungoval, ale měl řadu nevýhod:

  • Nízkou frekvenci kontrol: servery jsem kontroloval každou neděli. Udělal jsem si dopoledne kafe, zasedl k počítači a postupně jsem se na servery připojoval a vše kontroloval. Když jsem skončil, věděl jsem, že je vše v pořádku (servery jsou aktualizované a zálohy funkční). Týden má však 7 dní. Už ve středu jsem pociťoval mírnou nejistotu ohledně toho, zdali je se servery vše v pořádku (zálohy probíhají, nejsou zavirované, neselhává disk v RAIDu). V pátek už jsem byl značně nervózní a těšil se, až svému vědomí ulevím nedělní kontrolou (to, že jsou servery v pořádku, jsme věděl jenom v neděli dopoledne, když jsem je zkontroloval, pak už jsem jen zbytek týdne doufal). Zákazník nedostával službu na úrovni, jaké bych si přál (i když lepší, než když se to nekontroluje vůbec) a mě samotného ta nejistota taky trápila ☹.
  • Vyrušoval uživatele: když jsem jednou za měsíc přišel k zákazníkovi, tak jsem obcházel počítač po počítači a dělal kontrolu a aktualizace. Znamenalo to však, že během cca 20 minut nemohl uživatel na počítači pracovat. Někdo to bral v klidu (šel si dát kafe, cigaretu, nebo dělat „offline“ práci), jiným to naopak vadilo (měli hodně práce, stále nestíhali a do toho jsem je zdržoval ještě já). Když to vezmu z pohledu fakulty podnikatelské, tak to bylo neekonomické – majitel firmy platil nejen můj čas, ale i čas zaměstnance, který nemohl kvůli zásahu na PC pracovat.
  • Vysokou časovou náročnost: celý tenhle přístup byl časově náročný – bylo třeba k zákazníkovi dojet, aktualizovat/kontrolovat počítače ručně, pak zase cesta zpět. To vše jen proto, abych věděl, že 1 den v měsíci jsou počítače v pořádku.
    Např. zkontrolovat, že jsou zálohy na serveru v pořádku, zabere cca 10 minut (připojit se na server, počkat až se vše načte, spustit zálohovací program, projít logy, odhlásit se). Když bych je kontroloval každý pracovní den, tak je to 21 x 10 minut = 3,5 hodiny práce. Jednak se to zákazníkům platit nechtělo, a když bych měl kontrolovat každý den 11 serverů, tak by mi to měsíčně zabralo skoro 40 hodin „otrocké“ práce (1 pracovní týden).

Jak postupně zákazníků přibývalo, věděl jsem, že to takhle dál nejde a je třeba s tím něco udělat. Myslím, že tehdy jsem začal s monitorovacím systémem Nagios, pak jsem přešel na Zabbix, chvíli jsem testoval Centreon a nakonec jsem používal Icinga. Sice to nebylo tak komplexní jako systém, co máme teď, ale byl to výrazný posun vpřed. Konečně jsem jedním pohledem do webového prohlížeče viděl, že jsou počítače, servery i síť v pořádku (služby běží, zálohy probíhají, síť je dostupná, počítače mají antivirus …). To, co mi dříve zabralo hodiny (např. zkontrolovat zálohy) jsem teď měl k dispozici neustále a „bez“ práce.

Roky postupné evoluce

Z Icinga jsme v roce 2013 přešli na GFI MAX, na který nás „ukecali“ pánové z PB Com (nyní se jmenuje SolarWinds RMM). SolarWinds RMM stojí nějaké $$ a platí se jako služba (tzn. každý měsíc platíme podle toho, kolik monitorujeme zařízení). Nový systém přinesl nové funkcionality a možnost dělat práci zase lépe. Na druhou stranu to pro nás představovalo finanční zátěž (Icinga je bezplatná) a bohužel i nové potíže (je zajímavé, kolik toho může na placeném systému nefungovat).

Metodou pokus omyl jsme systém postupně přenastavovali a vylepšovali. Vždy, když se někde něco rozbilo a my jsme se o tom včas nedozvěděli, tak jsme si napsali do monitorovacího systému vlastní „check“ (skript pro kontrolu) nebo opatření. Do toho se přidala ještě má touha po standardizaci (Standardizace – děláme IT jako Baťa cvičky) a monitorovací systém nám začal hlídat i to, zdali je vše všude stejně nastaveno.

Aktuální schopnosti našeho monitorovacího systému máme popsané na stránkách firmy https://www.patron-it.cz/#co-kontrolujeme (v příštím článku se však rozepíši detailněji).

Jak to dělá konkurence

Protože jsem zvědavý, snažím se na různých IT akcích zjistit, jak jsou na tom ostatní a jak si na trhu stojíme. Zatím jsem odpozoroval, že existují IT outsourcingové firmy, které žádný monitorovací systém nepoužívají, což mi přijde škoda. Vždyť my, IT outsourcingové firmy, bychom měly být v IT oboru vepředu, inovovat a dělat práci podle svého nejlepšího vědomí a svědomí.

Dále jsem potkal firmy, které nějaký systém mají, ale zatím se v něm spíš plácají (něco jako my před pár roky, než jsme to celé přeházeli). Monitorovací systém jim toho monitoruje spoustu, zahlcuje chybnými nebo nedůležitými poplachy a není příliš času/energie a vůle vedení posouvat to dále.

Nyní by měly přijít ty firmy, které mají promakaný monitorovací systém a aktivně jej používají. Na takové jsem však zatím nenarazil ☹ (bavím se pouze o IT outsourcingových firmách – ISP jsou jiná liga). Věřím však, že takové jsou. Bude to nejspíše tím, že noví zákazníci za námi přichází hlavně kvůli nespokojenosti se stávající IT firmou. Od dobrých IT outsourcingových firem zákazníci neodchází, a proto se o nich nedozvídáme 😊.

Závěr

Pokud nějaký monitorovací systém používáte, budu moc rád, když se podělíte o své zkušenosti. V Brně a v Hradci Králové můžeme klidně zajít na kafe/pivo. V půlce února budu i týden v Praze 😊.

Příští týden budu psát detailně o monitorovacím systému, který používáme (již vyšlo Monitorovací systém: co všechno s ním dokážeme). Jestli chcete, nechte mi na sebe níže e-mail, ať vám mohu poslat připomínku, až článek vyjde.

Líbí se vám témata, o kterých píši?

Abyste nemuseli kontrolovat, jestli už vyšel nový článek, rád vám ho ihned po zveřejnění pošlu do e-mailu. Každý kontakt, který mi poskytnete, si nechám vždy jen pro sebe.

  1. Pracuju v menší outsourcingové firmě a protlačil jsem si Zabbix. Vzhledem k tomu že na zálohy do většiny firem dáme vlastní server na zálohy, monitoring je hračka. K tomu jsme si vyvinuli inteligentní instalátor a sadu PowerShell skriptů na checkovaní nejrůznějších parametrů. Díky autodiscovery to není ani moc náročné na údržbu.

    • Super, dobrá práce!

      Jak ve firmě vnímali Vaši iniciativu a výsledek?

      Instalujete si tedy i agenty na všechny PC/servery? Nebo to monitorujete skrze backup server a SNMP? Vše pak máte svedeno do jednoho centrálního Zabbix serveru nad kterým děláte dohled?

      • Iniciativu vnímali pozitivně, on to byl původně interní projekt který vyrostl do produktu 🙂
        Agenty instalujeme všude kam se dá, kde se nedá, poslouží agentless přes SNMP příp. SSH.
        Nejraději mám automatický deployment agenta na klientské stanice skrze GPO, šetří to čas.
        Na backup serveru běží proxy která posílá data v active režimu na náš cloud, takže nepotřebujeme nějaké port-forwardy a podobné věci.

        Pro zákaznický pohled taháme data ze Zabbix do Grafany, je to hezčí, i když většinou jim ty informace moc neřeknou a je třeba jim je interpretovat ekonomický 🙂

    • Míro, díky za sdílení zkušeností. Pulseway jsem neznal. Koukal jsem na jejich stránky, vypadá to pěkně. Jak jsi s tím systémem spokojený?

      Acronis backup používáš do cloudu? Vychází Ti to dobře cenově? Nemáš problémy s nízkými rychlostmi uploadu?

      • Pulseway mi zatim staci zhruba 4 roky jsem pouzival RMM od Solarwinds. Ma vymazlenou appku pro mobily setri mi spoustu casu. Samozrejme RMM od solarwinds (max) je sotisfikovanejsi SW nicmene mam rad zmeny a hlavne jsou cenove nekde jinde. Za malo penez hodne muziky. Jinak to zalohovani cenove jsem si to zkusil vyhadat a povedlo se… zacinaji jednani na dost vysoke cene. Jinak mam pravidlo ze pokud se cela stanice zazalohuje pres vikend tak je to pouzitelne u daneho zakaznika pokud ma ale pomalou lajnu tak ho odmitnu. Zalezi jak si to nastavis ale prvni zaloha trva dlouho rozdilove pak polovinu casu. Je to hodne zavisle na poskytovateli internetu. Zatim jsem s tim ale problem nemel. Popripade lze vyuzit mistni zalohu na železo zakaznika.

        • Nebyl to od SolarWinds spíše N-able? MAXe koupili teprve v 216. Je však pravda, že i MAX má mobilní aplikaci vážně nouzovou.
          Neměl jsi někdy problém u toho zálohování, že čas od času to stejně udělalo plnou zálohu?

          • On to byl nejdříve maxfocus od gfi. Čas od času to velkou zálohu udělá nicméně ten víkend počítám radši ze bude provedena velká záloha 😋 dostanu na konec jen echo zda klapalo co nikoliv 🙂

Napsat komentář