Sběr dat z provozu je jedním ze základních kamenů, na kterých stojí digitalizace průmyslu. Hloubková analýza informací ze senzorů na strojích dokáže podnikům pomoci s automatizací, plánováním výroby i diagnostikou výrobních zařízení. Avšak k tomu, aby bylo možné sběr a vyhodnocování tak obrovského množství informací provádět, je třeba mít také robustní infrastrukturu, která zvládne zajistit celý životní cyklus dat a také tým profesionálů pro vyhodnocování informací.
Obecně by se dalo konstatovat, že ke sběru a práci s daty je možné přistoupit několika způsoby, přičemž každé řešení je platné a vhodné pro různé podniky. Data je možné ukládat a zpracovávat buď v rámci společnosti na interních serverech, případně je možné je odesílat do cloudu nebo s nimi pracovat v takzvaném hybridním módu, což znamená, že část dat je uložená na lokálních firemních serverech a část v cloudu. Pokud se podnik rozhodné používat služby v cloudu, je třeba počítat s nutností rychlejšího datového připojení k internetu než v případě on premise, tedy lokálního řešení. Získávání dat, stejně jako ukládání, analýza a vizualizace se následně provádí pomocí softwarových nástrojů a vyhodnocování může probíhat zpětně i v reálném čase.
Pro efektivní využití dat je však nesmírně důležitý i lidský prvek - tým odborníků složený z datových analytiků a vědců i profesí zaštiťující funkční infrastrukturu, bezpečnost, architekturu i vývoj. Bez nich podnik nebude schopen výsledné informace správně vyhodnotit a promítnout je do příslušných procesů ve firmě a získaná data zůstanou více méně ladem. Vybudování vlastního týmu je však časově i finančně velice náročné a každá firma by si měla nejdříve detailně propočítat, zda se jí takové řešení vyplatí, nebo zda a v jakém poměru je výhodnější využívat pro práci s daty outsourcované služby.
Ať už se firma rozhodne jít cestou cloudu, či interního sběru a zpracování dat, bude potřebovat komplexní platformu, skládající se z výkonného hardwaru i speciálního softwaru.
Hardwarovou část představují servery například od společností HP, Lenovo, Fujitsu, DELL, dále síťové prvky, rackové skříně, disková úložiště či záložní napájení. Jednotlivé servery ještě mohou být zapojeny do clusterů, mezi které se úlohy distribuují, a každý cluster má na starosti zpracovávání konkrétních dat.
Softwarová část náleží operačnímu systému (zejména různým distribucím Linuxu) a nástrojům určeným pro vlastní zpracování dat jako například open source Apache Hadoop či Apache Spark, nad nimiž se dá postavit unikátní řešení pro danou společnost, a to včetně nástrojů pro analýzu a vizualizaci dat. Celá infrastruktura musí být navržena tak, aby dokázala distribuovat desítky a stovky terabytů až jednotky petabytů dat při přenosových rychlostech 100 Mb/s až 10 GB/s.
(Celý článek naleznete v aktuálním vydání Technického týdeníku.)