Masovni podatki

Uvod

Angleški originalni naziv "big data" je malo zavajajoč, saj masovni podatki niso nič večji od običajnih. Jih pa je zato ogromno in je zato slovenski prevod bolj primeren..
  • Walmart obravnava vsako uro več kot milijon transakcij svojih strank. 
  • Facebook ima v  bazi svojih uporabnikov več kot 40 milijard fotografij in vsak dan generira 10TB novih podatkov. 
  • Boeing 737 generira 240TB podatkov med enim samim poletom.
  • Pametni telefoni tvorijo in uporabljajo številne podatke, S senzorji v vsakodnevnih objektih bomo kmalu šteli nove podatke v milijardah. Stalno posodabljani podatki so s področja  okolja, lokacije ipd. Vključujejo lahko tudi zvok in video.
  • Dekodiranje človeškega genoma bi včasih terjalo 10 let, danes to dosežemo v enem tednu.





V slovenščini najdemo za angleški izraz "big data" tudi prevod "množični podatki".




Masovni podatki (so postali popularni v prvem desetletju 21. stoletja. Najprej so jih začele uvajati spletne organizacije, kot so  Google, eBay, LinkedIn in Facebook. Masovni podatki naj bi privedli do dramatičnih znižanj stroškov in krajše čase za izvedbo storitev in tudi samo uvajanje novih proizvodov in storitev.

Masovni podatki’ so torej podobni  ‘klasičnim podatkom’, vendar  v razliko tradicionalnih računalniških tehnik terjajo drugačne pristope s ciljem reševanja novih problemov ali starih na boljši način: drugačne tehnike, orodja in zgradbo.

Na področju masovnih podatkov govorimo o analizi, sistematičnem izluščenju informacij in drugačnih obravnavah množic podatkov, ki so preobširne ali prekompleksne za obdelavo s klasičnimi programi za obdelavo podatkov. Analiza masovnih podatkov vključuije zajem podatkov, njihovo pomnenje, analizo podatkov, poizvedbe, prenose, vizualizacijo, posodabljanje in tudi upoštevanje zasebnosti.


Značilnosti masovnih podatkov


Masovne podatke so v začetku povezovali s tremi ključnimi pojmi:
  • Količino,
  • raznolikostjo
  • hitrostjo.

1. Značilnost: količina podatkov

Tipični PC ima več  100 GB, morda celo 1TB  diskovne kapacitete. Organizacije pa zbirajo podatke iz različnih virov, kar vključuje tudi bančne transakcije, male napravice (v sklopu Interneta stvari), industrijsko opremo, video, družbene medije itd. Včasih bi to predstavljalo problem, danes pa najdemo cenejše shrambe, kot so na primer podatkovna jezera.


2. Značilnost: hitrost

3.Značilnost: raznolikost

Včasih sta tem trem značilnostim dodana še dva pojma:

Spremenljivost:

Poleg naraščajočih hitrosti in raznolikosti podatkov so tudi pretoki podatkov nepredvidljivi - pogosto se spreminjajo in močno razlikujejo. To je zahtevno, toda podjetja morajo vedeti, kdaj je nekaj v trendu v družabnih omrežjih, in kako upravljati dnevne, sezonske spremembe in dogodke, ki jih sprožijo največje obremenitve .

Verodostojnost:

Verodostojnost se nanaša na kakovost podatkov. Ker podatki prihajajo iz toliko različnih virov, je težko povezati, očistiti in preoblikovati podatke med sistemi. Podjetja morajo povezati relacije in iskati korelacije, hierarhije in večkratne povezave med podatki. V nasprotnem primeru lahko hitro izgubijo nadzor nad podatki.


Shramba, izbira in obdelava masovnih podatkov

Srečamo se s pojmom podatkovnih jezer (data lakes).

Podatkovno jezero je centralizirano skladišče podatkov, ki so shranjeni v surovi (naravni) obliki. Vsebuje kopije surovih podatkov (iz senzorjev, družbenih medijev ipd) pa tudi predelane podatke, kot so poročila, vizualizacije, podatki iz napredne analitike in strojnega učenja. 

Podatkovno jezero lahko vključuje tako strukturirane podatke iz relacijskih baz (tabele), kot tudi delno strukturirane podatke (CSV, XML, JSON) in povsem nestrukturirane podatke (elektronska pošta, dokumenti, pdf) ter binarne podatke (slike, avdio, video).

Medtem ko klasično hierarhično podatkovno skladišče shranjuje podatke v datotekah ali mapah, shranjuje  podatkovno jezero  podatke brez hierarhije. Vsakemu podatkovnemu elementu v jezeru je dodeljen edinstven identifikator in je označen z nizom metapodatkov. Ko želimo odgovor na neko vprašanje, lahko s poizvedbo v podatkovnem jezeru poiščemo ustrezne podatke, nato pa tako pridobljeni ožji izbor podatkov podrobneje analiziramo.

Kot primer omenimo Hadoop. To je  je odprtokodni okvir, ki temelji na Javi in ​​se uporablja za shranjevanje in obdelavo velikih podatkov. Podatki so shranjeni na poceni strežnikih, ki delujejo kot grozdi. Njegov porazdeljeni datotečni sistem omogoča sočasno obdelavo in odpornost na napake.




V čem je posebnost masovnih podatkov

  1. V nekaterih primerih so ti podatki avtomatsko, strojno  generirani (na primer s senzorji v grajenimi v nek stroj)
  2. Tipično je to nek popolnoma nov podatkovni vir (na primer uporaba na Internetu)
  3. Pogosto niso načrtovani uporabniku prijazno (na primer tokovi besedil)
  4. Morda nimajo kakšne posebne vrednosti (in se moramo osredotočiti le na pomemben del)

Viri masovnih podatkov

Viri so lahko:
  • Uporabniki
  • Aplikacije in drugi programi
  • Sistemi
  • Senzorji
  • Bralniki in skenerji
  • Mikrofoni in kamere
  • Mobilne naprave
  • Družbeni mediji
  • Naprave v znanstvenih laboratorijih


Postopki obdelave masovnih podatkov


Orodja za masovne podatke

Sistemi za upravljanje relacijskih podatkovnih baz in namizne statistične aplikacije  pogosto niso primerne za obdelavo in analizo masivnih podatkov. Potrebujemo računalniško moč, ki jo nudijo paralelne programske aplikacije, ki tečejo na desetinah, stotinah, morda celo tisočih strežnikov.

Odpirajo se naslednja vprašanja:


 Aplikacije masovnih podatkov

Trenutna uporaba masovnih podatkov se večinoma nanaša na napovedno analitiko (predictive analytics), analitiko obnašanja uporabnikov in nekatere napredne analitične metode izluščenja vrednosti iz masovnih podatkov.  Količine podatkov so res obsežne. Analiza podatkov išče trende v poslovanju, skuša preprečevati bolezni, uporabna je v borbi proti kriminalu.  Znanstveniki, poslovneži, zdravstveni analitiki, svetovalci in vlade imajo težave z velikimi množicami podatkov.  Omejitve najdemo tudi pri meteorologiji, kompleksnih fizikalnih simulacijah, biologiji in okoljskih raziskavah.
Nadzor prometa
Pametna mesta
Napovedovanje vremena
Tržne raziskave
Raziskave socialnih omrežij
Raziskave raka
Širjenje pandemij
Napovedovanje kriminala

Dober primer uporabe masovnih podatkov je spremljanje poteka bolezni Covid 19 po državah in to v realnem času:


Analitika masovnih podatkov

Pri proučevanju velikih količin podatkov želimo ugotoviti prave informacije, identificirati skrite vzorce in neznane korelacije. Vse to nam lahko ponudi konkurenčno prednost, boljše poslovne odločitve, učinkovito trženje in povečano zadovoljstvo strank. Pa tudi povečanje dobička.

Masovni podatki v realnem času niso ravno problem skladiščenja  petabajtov ali eksabajtov. Bolj je izziv v tem, da morajo potekati naše boljše odločitve in smiselne akcije v pravem času.

Tveganja pri masovnih podatkih



 Kako bodo masovni podatki vplivali na IT in gospodarstvo.

Veliko računalniških firm se specializira na upravljanje s podatki in analitiko. Masovni podatki predstavljajo za IT organizacije tako izziv kot priložnosti. Obstaja pomanjkanje kadrov s področja podatkovne analitike in upravljanja s podatki.