Pamatujete si na Cloud Computing? Bývaly doby, kdy byl tohohle slova plný internet, všichni to měli, nebo chtěli mít, byla v tom budoucnost a pokud jste to slovo nepoužili alespoň třikrát během jedné pracovní schůzky, byli jste prostě „out“. Stejné je to teď s Big Data.
Každý je má, musí je analyzovat nebo o nich alespoň psát (hups) a přitom existuje jen minimum lidí, kteří s nimi kdy přišli do styku a minimum textů, které by o nich říkaly cokoliv jiného, než že se bez nich neobejdete. Strávil jsem proto poslední dobou nemálo času rešerší na téma „co jsou to sakra vlastně ta Big Data a jak se liší oproti těm normálním, nudným Datům“ a vážně není jednoduchý úkol, najít takovou informaci pohromadě.
První co je nutné si o Big Datech uvědomit je fakt, že pod tímto termínem není možné hledat (tak jak jsem dlouho naivně hledal) jakýsi nový, větší a lepší typ dat, která známe nyní. Big Data nejsou „věc“, spíše jde o koncept, jakousi komplexní filosofii přístupu k datům, která známe nyní. Hlavní otázkou potom je, co tento koncept charakterizuje.
Podstatnou část odpovědi je schopný poskytnout článek Big Data: The Management Revolution publikovaný před rokem na webu Harvard Business Review (kompletní znění článku v pdf je na Google Scholar). Podle autorů jsou klíčovými charakteristikami, které Big Data odlišují od těch „klasických“ dat, především:
ROZSAH – Terabajty jako jednotky velikosti jednotlivých datových setů již v poslední době přestávají stačit. Ve zmíněném článku je jako příklad rozsahu dat, která mají dnešní firmy k dispozici řetězec Wallmart. Pravda Wallmart není firma, kterou by šlo považovat za běžnou, minimálně pokud jde o její velikost a úroveň zpracování dat. Nicméně její zákazníci vygenerují každou hodinu dva a půl petabajtu (1000 TB) dat o uskutečněných transakcích. Na data o takovém rozsahu je už přeci jen třeba nahlížet trochu jinak než na klasickou databázovou tabulku o několika stech, maximálně tisících řádků. I přesto by se ale dalo namítnou – ok, těch dat je hodně, ale pořád jsou to jen data. A nedá se s tím nesouhlasit.
RYCHLOST – Daleko podstatnějším rysem a současně rozdílem proti klasickým datům, je rychlost jejich vzniku, resp. frekvence jejich aktualizace chcete-li. V rámci Big Data konceptu, se celý proces vzniku dat, jejich sběru, analýzy a implementace sbližuje až na úroveň prakticky real-time zpracování dat. Představte si například, že by dopravní podnik na základ real-time dat o poloze obyvatel na území daného města (data dostupná např. z mobilní sítě, jak ukázal případ Jana Cibulky) dokázal posilovat či naopak oslabovat intenzitu spojů a tím optimalizovat vytížení linek. Něco takového je zatím asi utopie, ale co třeba zpracování dat o zdravotním stavu pacientů připojených na přístroje v reálném čase, umožňující zachytit signály nastupujícího akutního stavu a zasáhnout tak ještě před plným rozvojem nemoci? Konkrétní případovou studii, která dokazuje, že druhý případ už je daleko blíže realitě (stejně jako spoustu dalších užitečných materiálů, pokud vás téma Big Data zajímá více do hloubky) můžete najít na IBM The Big Data Hub.
ROZMANITOST – Zjednodušeně řečeno se v rámci pojetí standardních dat pod pojmem data, rozumí pouze data strukturovaná. Tedy taková, která mají typicky podobu tabulky, u které víme, jakou informaci nese který sloupec, a co reprezentuje každý řádek atd. V pojetí Big Data je za data považováno prakticky cokoliv, co lze potenciálně využít pro predikci. Takových „potenciálních datových zdrojů“ je spousta – příspěvky a obrázky na sociálních sítích, výpisy hovorů, geolokační údaje, maily a další. S tím ovšem také přichází nutnost umět tato data zpracovat a logicky je interpretovat.
Právě popsané odlišnosti Big Dat a klasických dat, jsou pojmenovávány jako 3V (z anglických slov Volume, Velocity, Variety) a jsou všeobecně přijímány. Objevují se ale i další např. Veracity vyjadřující nejistotu v datech, či nekvalitu dat vyplývající z výše popsaných vlastností tohoto přístupu a Value, která má představovat přidanou hodnotu, kterou Big Data přináší, případně Visualization.
Každá z vlastností konceptu Big Data zároveň představuje vývojový posun v přísupu k datům. Nejvýrazněji se na tomto posunu podepisuje rychlost, se kterou vznikají stále nová a nová data. V jejím důsledku je totiž nutné se orientovat spíše na „tok“ dat, proces jejich sběru, analýzy a implementace, který musí být nastaven tak, aby mohl fungovat stejně rychle, jak rychle jsou nová data generována. Toto pojetí je přímým protikladem převládajícího přístupu, založeného na „zásobě“ dat ve formě databází a jejich více či méně dávkového zpracování.
Big Data jsou tedy spíše způsob, jak přisupovat k datům obecně, než úplně nový ulitmátní, všeřešící typ dat, která vám dají odpověď na všechno. Je totiž skvělé, pokud máte všechny ty zásady pro Big Data ve vaší firmě implementovány, ale na druhou stranu není potřeba si myslet, že jste úplně mimo, pokud máte dojem, že vám pořád stačí ta stará „klasická“ data. Už jen pokud se podíváte na ony znaky Big Dat, zjistíte, že oblastí resp. konkrétních firem, pro které je vhodný tento přístup, není mnoho. Kde všude potřebujete pracovat s petabajty dat vznikajícími každou hodinu ve formě stovek různých nestrukturovaných datových zdrojů? Pokud máte dojem, že vám pořád stačí vaše klasické týdenní reporty, databáze a především strukturovaná numerická data, tak proč se honit za Big Daty? Pro případ, že by byl váš dojem špatný, ale určitě není od věci uvažovat nad tím, zda tuto filozofii, či některé její části nezavést i do vaší firmy, byť třeba jen v omezené formě.
Pokud máte zájem dozvědět o myšlence Big Dat ještě víc a to i poměrně zábavnou formou, doporučuji následující playlist sestavený z přednášek v rámci TED talks nazvaný „Making sense of too much data“, který obsahuje přednášky řečníků jako Hans Rosling nebo David McCandless.