Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Big Data mintavételezés – elefántrezervátum vagy állatkert?

Big Data mintavételezés – elefántrezervátum vagy állatkert?

2014. november 5. szerda Bejegyezte Kovács Gyula

Háttér

A Clementine Consulting legutóbbi Clem Club rendezvényén a Big Data volt a téma. A rendkívül színvonalas előadások közben egy igen érdekes kérdés merült fel: vajon a Big Data témájú cikkek miért foglalkoznak olyan keveset a mintavételezéssel? Az Andego ügyvezető partnere, Kovács Gyula ezzel kapcsolatban fejti ki véleményét.

Kommentár

A Big Data kifejezésről sok embernek  sok mindent jut eszébe, nekem többnyire semmi. Ez nem azt jelenti, hogy nem értem a Big Data jelentőségét, vagy nem értem a Big Data definícióját, de számomra mégis csak egy "mém". Méghozzá mém eredeti értelme szerint, azaz: nem azért beszél róla mindenki, mert mindenkit érdekel, foglalkoztat, hanem azért beszél róla mindenki, mert mindenki más is róla beszél. Különösen érdekes az adatbányászok kapcsolata a Big Data-hoz. Elméletileg az adatbányászoknak kéne a leglelkesebbnek lenniük, hisz itt van egy új technológia, ami lehetővé teszi óriási adatok elemzését, de valójában csak egy jól körülhatárolható szegmens (data scientist) aktív a témával kapcsolatban, a döntő többségnek alig van valódi Big Data élménye. Jómagam is ezen nagyobb szegmenshez tartozom, lelkes érdeklődő vagyok, de a hétköznapi munkámban nem nagyon találkozom Big Data problémával.

Annál többször találkozom vele különböző konferenciákon vagy meet-upokon. A Big Data témában tartott esemény zuhatag egyik üde színfoltja volt a múlt heti Clem Club. A program önmagában elég ütős volt, de igazából az est legjobb pillanata akkor jött el, amikor résztvevők azon kezdtek el "vitatkozni", hogy a Big Data témában miért nem (vagy csak alig) lehet hallani mintavételezési eljárásokról .

Hogy miért is érdekes maga a kérdés, ahhoz nézzük meg az alábbi diagramot, ami az adatbányászat elmúlt 20 évét egy speciális szemszögből foglalja össze:

dm_1996_2014

A hazai adatbányászat kezdete nagyjából az 1990-es évek közepére tehető (legalábbis az üzleti célú alkalmazása). Ekkor az elemzések legnagyobb gátja maga a hardver volt. Akkoriban egy 30.000-100.000 rekordból álló adatbázis igen komoly méretnek számított, és az akkori gépeken csak igen lassan futottak le az adatbányászati algoritmusok. Éppen ezért szinte mindig egy kisebb mintán dolgoztunk, és csak a kész modelleket futtattuk le a teljes adatbázison. A 2000-es évek elején azonban a helyzet megváltozott köszönhetően a számítási kapacitás nagyságrendi ugrásának. Az elemzések egyre többször a teljes adatbázison készültek, a mintavételezés szinte feledésbe szorult. Aztán 2010 körül kezdett beszivárogni a Big Data kifejezés. Az itthon ismeretlen óriás méretű adatbázisok olyan új informatikai fejlesztéseket generáltak, melyek szép lassan átalakították a BI (üzleti intelligencia) iparági sztenderdjeit. Annak ellenére, hogy ezek a fejlesztések lehetővé tették a gigantikus méretű adatbázisok elemzését, az elemzők többsége nem nagyon tudta hova helyezni a Big Data-t. Jómagam a következőképpen láttam a helyzetet:

i.) itthon egy-két speciális céget kivéve nincs Big Data adatbázis (-> nem valódi probléma)

ii.) ahol van, ott is egyszerű lekérdezésekben kimerül az "adatelemzés" (-> nem érdekes elemzési szempontból)

iii.) és ráadásul egyre többször kezdtek olyan dolgokat is Big Data-ként emlegetni, aminek semmi köze nem volt az eredeti definícióhoz (-> növekvő sznobizmus)

És volt egy dolog amit végképp nem értettem: ha ilyen nagy adatbázisok vannak, akkor miért nem mintán dolgoznak? Ha 20 évvel ezelőtt ez nem okozott gondot a mintavételezés, akkor miért ne működne most is? Természetesen megvan az oka, hogy miért nem alkalmaznak mintavételezést Big Data elemzéseknél, de hogy ezt megértsük, nézzük meg mi is maga a mintavételezés.

elefant

A fenti ábrán az adatbázist egy "elefánt" reprezentálja. A minta ugyancsak egy "elefántot" mutat, utalva arra, hogy a megfelelő mintavételező eljárás végén előálló mintában ugyanazon összefüggések érvényesek, mint a teljes adatbázisban. Éppen ezért a minta tökéletesen alkalmas adatbányászati modellezésre, a kapott összefüggések érvényesek a teljes adatbázisban is, viszont az elemzésekre ráfordított idő drasztikusan csökkenthető így. Ha ez így van, akkor miért nem lehet mintát venni Big Data adatbázisokon? Ehhez nézzük meg a következő ábrát:

big_dataA gond a következő: a Big Data adatbázisokon nem lehet megfelelő mintát venni. Ennek elsődleges oka az, hogy a Big Data típusú adatbázisokon nem az univerzális összefüggések keresése az elsődleges cél, hanem épp fordítva, az összes, tehát a nagyobb és kisebb összefüggések megkeresése a feladat. Nézzünk néhány példát, hogy milyen esetekben nem működik a mintavételezés:

a.) Kereső motorok (Googel, Bing) - az Andego honlapján hetente 100-300 látogató van, ami a teljes Internet forgalom kimutathatatlan kis része. Mégis ha valaki az Andego cégre szeretne rákeresni, igen csalódott lenne ha egy kereső nem adna ki  semmit, mondván a mintavételezés során nem került be az Andego a mintába.

b.) Webáruházak ajánló rendszerei -egy Amazon sikere azon is múlt, hogy az extrém igényeket is ki tud szolgálni, ennek megfelelően azon ügyfelek esetében is értelmes ajánlatot ad, amely ügyfelek egészen speciális igényekkel rendelkeznek. Pl. ha valaki eddig kongói falinaptárt és üzbég sajtot rendelt eddig, akkor jó eséllyel mondható ki, hogy ehhez hasonló rendelést nem sokan adtak le rajta kívül. Ha az Amazon is mintán dolgozna, akkor szinte biztosan nem tudna értelmes ajánlatot adni egy ilyen felhasználónak, a teljes adatbázist vizsgálva viszont (és az óriási adatbázis méretnek köszönhetően) valami hasonló vásárlási minta előfordulhat az adatbázisban, amit felhasználva még az ilyen extrém viselkedésű ügyfélnek is lehet új ajánlatokat kiszámolni.

c.) Csalás detektálás - a csalás detektálás során igen gyakran alkalmaznak hálózati modelleket. Ilyenkor az ügyfelek kapcsolati hálója kerül kiszámolásra, majd ezen hálózat alapján kerülnek detektálásra a csalók. A gond csak az, hogy egy gráf esetében sincs lehetőség mintavételezésre - mivel lehet hogy valakiről azért nem derülne ki hogy csaló, mert egy másik csalóval való kapcsolata nem kerülne be a mintába.

 

Akárhogy is nézzük, a Big Data jelenség az adatbányászok számára nem a méret miatt érdekes, hanem egy új elemzési filozófia miatt. Amíg a hagyományos adatelemzés esetében a legáltalánosabb összefüggések megkeresése a cél, addig a Big Data elemzéseknél minden összefüggés megkeresése fontos - nincs jelentősége hogy a teljes populáció hány százalékára igaz az adott összefüggés. Ennek megfelelően az adatbányászoknak fel kell készülniük arra, hogy az elefántrezervátumból átsétáljanak egy óriás állatkertbe!

 

 

 

 

 

Blog
adatbányászat, amazon, andego, big data, Clem Club, data mining, fraud, google, mintavételezés, sampling
Egy sikeres projekt – CRM rendszer bevezetése a Fókusz Takaréknál
Andego új munkatársakat keres

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress