Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Mém neve – Big Data I. rész

Mém neve – Big Data I. rész

2013. január 29. kedd Bejegyezte Kovács Gyula

Háttér

Napjainkban egyik legnagyobb BI  mémje a "Big Data" kifejezés. Szinte nincs olyan BI esemény, ahol ne Big Data lenne a központban, azonban érdekes módon a hazai adatbányász szakmát egyenlőre nem igazán érintette meg a téma. Egy három részből álló cikksorozatot indít el az Andego, mely a Big Data témakört járja körbe adatbányász szemüvegen keresztül.

1. rész - Mit jelent nekünk a Big Data?

Hogy őszinte legyek,  önmagában a Big Data és hozzákapcsolódó egyéb kifejezések (pl Cloud) nem igazán hoznak lázba. Hogy miért, arra majd a cikk sorozat harmadik részében bővebben ki fogok térni, most csak arra keresem a választ, hogy ez az érdektelenség mennyire jellemző a hazai adatbányászok körében. Ehhez ismerőseim körében egy rövid kérdőíves kutatást végeztem Big Data témában. Nézzük mik voltak a kérdések!

1. kérdés: Szerinted mit jelent a "Big Data" kifejezés? (ha fogalmad sincs, akkor azt írd ide!)
2. kérdés: Hány MB/GB/TB felett beszélünk Big Data-ról?
3. kérdés: Mennyire vagy biztos a 2.-es kérdésre adott válaszod helyességében? (0% ->100%-ig bármit írhatsz)
4. kérdés: Ha látsz egy Big Data cikket, akkor erre hogyan reagálsz? ("biztosan elolvasom" -> ... -> "undorodva elfordulok", de bármit írhatsz, akár azt is, hogy még nem találkoztál ilyen cikkel!)

A kérdéseket adatbányászoknak, BI szakértőknek, üzleti és CRM tanácsadóknak, illetve szoftver fejlesztőknek küldtem ki, ebből 12 válasz jött vissza.

Válaszok és néhány érdekesség

I. Már önmagukban a válaszidők tanulságosak voltak.  Míg a BI szakértőktől néhány percen belül visszajöttek a válaszok, addig az adatbányászoktól jóval lassabban (volt akitől napok múlva). Mintha az adatbányászokat nem hozta volna tűzbe ez az egész!

II. Azt kértem mindenkitől, hogy ne guglizzon, azt írja le, ami fejéből egyből kipattan. Ennek ellenére az első kérdésre, szinte mindenki valami hasonlót írt le: "Számomra olyan mennyiségű adat ami a hagyományos módszerekkel nem vagy nem belátható (nem értelmes) időn belül dolgozható fel ". Most nézzük a Wikipedia definíciót: " In information technology, big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. "  Hoppá: de hasonlít a két mondat egymásra! Ettől függetlenül a sejtésem az, hogy a megkérdezettek többsége tényleg saját kútfőből merített. Viszont feltűnő volt, hogy az egy mondatos válaszon szinte mindenki leragadt, minta az egészről összesen ennyit tudna!

III. Hogy hány byte számít Big Data-nak? A többség 1TB vagy 10 TB-nál húzta meg a határt. A kedvenc válaszom mégis ez volt: "Modeler 60M rekord x 40 paraméteres táblán (~20GB) még kivárható időben működik (adattranszformálási és modellezési feladatok), ezért mindenképpen e fölé tenném valahová. Mondjuk 50-100 GB fölé." És persze volt olyan, aki hivatkozva a definícióra kijelentette, hogy ilyen adatkorlát nincs is.

IV.  Igen nagy szórás volt arra is, hogy  ki mennyire biztos az előző kérdésre adott válaszában? A többség 50% vagy az alatti értéket jelölt meg, ezzel beismerve, hogy teljesen bizonytalan a válasz helyességében. Azért az adatbányászok csavaros észjárását jól tükrözi az alábbi eset: Kérdés: Hány MB/GB/TB felett beszélünk Big Data-ról?  Válasz: "Sok. Emiatt 3. válasz 100%."

V. Na és a legtanulságosabb rész: ki mennyire olvas Big Data cikket?  Számomra meglepő volt, hogy a többség egyáltalán nem (volt aki azt állította, hogy nem is látott ilyet, ami igen meglepő annak tükrében hogy még a mainstream média is foglalkozik esetenként a Big Data témával).  Az általános hangulatot talán ez írja le legjobban: "ha van időm elolvasom" (kérdem én, manapság kinek van ideje bármire is?). Az érdektelenséget néhányan azzal magyarázták, hogy a munkájukhoz jól hasznosítható cikket még nem láttak.

Tanulság

Úgy gondolom a Big Data téma egyszerűen hidegen hagyja a hazai adatbányászokat. Tudom néhány adatbányász válasza még nem reprezentatív, de a megérzéseim azt súgják, hogy teljes mintán is hasonló eredmény jött volna ki.

Na de végül is mi is az a Big Data?  A következő cikk megpróbál erre választ adni, majd a záró cikkben arra keressük a választ, hogy miért veszi körül ekkora érdektelenség.

Blog
adatbányászat, big data, crm
Minek nevezzelek?
Mém neve – Big Data II. rész

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress