V minulém článku „Monitorovací systém: jak jsem zjistil, že jej potřebujeme“ jsem vyprávěl o tom, jak jsme se dostali k prvnímu monitorovacímu systému, a proč byste si jej měli pořídit. Dnes to udělám opačně a místo teorie přejdu rovnou k tomu, co umí náš nejproduktivnější „zaměstnanec“.
Monitorování (Monitoring)
Primární funkcí, už jak název napovídá, je monitorování. My se snažíme monitorovat vše, co je podle nás důležité, a co nám pomůže s prevencí nebo včasnou detekcí chyb. Soupis kontrolovaných věcí je na našem webu https://www.patron-it.cz/#co-kontrolujeme , ale samochvály není nikdy dost, tak to napíšu i sem:
- Servery: dostupnost, vytížení (CPU, HDD, RAM), stav aktualizací, hardwarové zdraví (CPU, RAM, PSU, HDD, RAID, FANs, teploty), protokoly událostí, aktuálnost antiviru, úspěšnost záloh, neúspěšná přihlášení, místo na disku, běh všech služeb [včetně pokročilých stavů u AD DS, MS Exchange, MS SQL, DFSR], hlídání záruk, platnost certifikátů, různá drobná nastavení (VSS, FW, WPAD, UAC, přesnost hodin …).
- Stanice: dostupnost, aktuálnost antiviru, stav aktualizací, místo na disku, SMART disků, výskyt BSOD, neúspěšná přihlášení, výskyt nepovoleného SW, výskyt v ERA a TeamVieweru konzoli, provádění restartů a různá drobná nastavení (FW, UAC, RemoteUAC, místní uživatele, VSS, kontrola položek po startu, vypnutí účtů hosta …).
- Storage: dostupnost, zbývající místo, verze FW, dostupnost aktualizací, hardwarové zdraví (CPU, FANs, teploty, RAID, PSU, RAM).
- UPS: dostupnost, stav baterií (stáří, zatížení, zbývající doba běhu, teplota), stav napájení, verze FW.
- Switche, routery, Wifi AP, kamery: dostupnost, verze FW
- Detekce neznámých zařízení v síti: skenuje všechny sítě (ARP scan) a porovnává detekovaná zařízení oproti databázi – neznámá zařízení oskenuje pomocí nmap a předá k ruční kontrole. Máme tak přehled o tom, co je zapojené v síti, a jestli tam někdo nezapojil třeba domácí PC, nebo nepovolený Wifi AP.
- Hlídá sám sebe: na základě pravidel (našich standardů) ví, co se má na každém zařízení kontrolovat a zahlásí, pokud najde nesoulad. Např. někdo zapojí do sítě NAS, ale zapomene nastavit jeho kontrolu do monitorovacího systému.
Kdybychom to všechno měli kontrolovat ručně, trvalo by nám nejspíše celý 1 měsíc, než bychom to celé jednou prošli. Přitom monitorovací systém to zvládne každých 5 minut.
Proč je monitorování důležité?
V mém případě pro klid duše, že je vše v pořádku. A vědomí, že zákazník dostává nejlepší službu, jakou umíme poskytnout.
Můžete namítnout, že když někomu vypadne server nebo router, že to zjistíte i bez monitorovacího systému, protože vám zákazník okamžitě zavolá, že mu nefunguje síť. Jenomže je mnoho věcí, které se neprojeví hned, ale nejsou-li opraveny včas, může to mít vážné následky. Například:
- Selže jeden disk v RAID1 nebo RAID5. Pokud se neopraví do doby, než selže další disk, tak se zastaví na den byznys a dojde ke ztrátě X hodin práce.
- Pokazí se zálohování a přijde se na to až tehdy, když je potřeba něco obnovit. V lepším případě bude zákazník jen naštvaný.
- Zastaví se nějaká služba na serveru (například nějaká měřící) a přijde se na to až na konci měsíce, když je třeba data zkontrolovat, ale ona nejsou.
Správa aktualizací (Patch management)
Všude se píše, že patchování (aktualizování) je základ. Já s tím souhlasím a s kolegy se snažíme, abychom měli vše aktualizované (i když Microsoft nám občasnými špatně vydanými aktualizacemi moc nepomáhá).
Dříve jsme používali WSUS, ale pro náš způsob práce se nehodil. Máme desítky oddělených firem a nechtěli jsme mít v každé firmě vlastní WSUS. Navíc je náročný na HW, nemá centralizovanou správu (nad více instancemi) a má omezenou podporu patchování aplikací třetích stran.
Náš monitorovací systém má integrovanou správu patchování. Vše je v jedné konzoli (rychleji se zaučuje, vše je na jednom místě a je potřeba méně „agentů“ na stanicích), máme u zákazníků lokální cache (aby si 100 počítačů nestahovalo stejný update zvlášť) a děláme i aktualizace software od jiných výrobců než Microsoft (přehled podporovaného SW).
Patchovat automaticky síťová zařízení ještě neumíme. Zatím však skrze monitorovací systém máme jejich soupis (typ zařízení, výrobce, model a verze FW) a tento kvartál pracujeme na modulu, který nás bude upozorňovat, jaká zařízení je třeba aktualizovat, když vyjde nový firmware.
Správa majetku (Asset management)
Monitorovacím systémem řešíme i správu majetku. Systém nám udržuje přehled o tom, jaké jsou u zákazníků servery, počítače, notebooky (včetně konfigurace) a síťová zařízení (routery, switche, kamery, telefony, Wifi AP a jiné krabičky). Je to super v tom, že máme přehled a nestojí nás to žádný čas ani práci navíc.
Příležitostně chce totiž zákazník znát, jaký má počítačový „park“. Vy chcete zjistit, jaké jsou nejstarší stroje anebo jen hledáte, na jakých PC je určitý software nainstalován.
Občas u někoho vidím, že si takový soupis vede někde bokem v Excelu. To má ale tu nevýhodu, že je nadlidsky těžké jej udržet aktuální. Navíc si nejsem jistý, jestli by nám zákazník chtěl platit položku na faktuře s textem „aktualizace seznamu zařízení“. Zde se to samo pravidelně vyčítá přímo ze zařízení, takže je to aktuální a přesné 😊.
Z čeho je náš monitorovací systém postaven
Abych se nechlubil cizím peřím, tak musím přiznat, že náš monitorovací systém je postaven na SolarWinds RMM, který si můžete také sami pořídit. Buď napřímo od SolarWinds, nebo přes firmu PB Com.
My systém používáme už od roku 2013 a jsme mezi 3 největšími uživateli v ČR a SK. Za tu dobu jsme se systémem nasbírali hodně zkušeností a systém jsme si značně upravili. V podstatě jej používáme už jen jako „podvozek“ pro spouštění checků na zařízeních a zbytek jsme si udělali podle sebe. Teď je to tak 40 % SolarWinds a 60 % PATRON-IT 😊.
Pokud zatím žádný monitorovací systém nepoužíváte, určitě je SolarWinds RMM dobrý start. Jen je nutné připravit se na to, že je to spíše nástroj než řešení. Myslím to tak, že instalace je jenom začátek. Pak si musíte ujasnit, co chcete monitorovat, jak to chcete monitorovat, jak vás má systém upozorňovat na chyby. Pak nejspíše zjistíte, že něco vlastně monitorovat nepotřebujete. Následně začnete objevovat chyby v systému (o nich by vám mohl asi každý, kdo tento nástroj používá, vyprávět: FB skupina SolarWinds – Best Practices, LinkedIn uzavřená skupina). Vezme to hromadu času, ale pokud to vydržíte, budete mít skvělého pomocníka pro práci.
Nebo pokud nemáte čas si vše nastavovat sami, zkuste se nám ozvat. V PATRON-IT spolupracujeme s interními IT odděleními a společně se staráme o prostředí jejich firmy. Zjistili jsme, že společně dokážeme dělat správu lépe než každý zvlášť. My máme znalosti a zkušenosti v oblasti monitorování, bezpečnosti, sítí a serverů (přeci jen je to naše dennodenní činnost) a interní IT zná zase firemní procesy, informační systémy (tak dobře to my nikdy nedokážeme a je nejblíže uživatelům. Dohromady pak zvládneme udělat IT prostředí, kde je pořádek, nejsou výpadky, vše běží rychle a uživatelé i vedení jsou s IT spokojení.
Závěr
Než jsme systém dostali do stavu, v jakém máme monitorovací systém nyní, zabralo nám to roky práce a postupného upravování (jen dlouhá evoluce, žádná revoluce). Nápadů na další rozvoj je hromada, jen je škoda, že jak jsme větší, nejde to tak rychle jako v počátcích (každá nová technologie se musí nasadit na všechny zákazníky a chvíli zabere, než se to implementuje).
Jak se vám článek líbil? Máte nějaké postřehy a nápady? Udělal jsem někde chybu, nebo se mnou nesouhlasíte? Zanechte mi komentář, nebo mi pošlete e-mail, rád se naučím/dozvím něco nového.
EDIT 13.12.2018: Vytvořili jsme stránku, kde jsme popsali, jak vám monitorovací systém v práci pomůže a jak ho u nás vyzkoušet zdarma. Připravili jsme také videoukázku přímo v produkčním prostředí (uvidíte, jak systém v praxi používáme my). Podívejte se a napište nám svůj názor. 🙂