Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Big data – egy új délibáb?

Big data – egy új délibáb?

2012. december 10. hétfő Bejegyezte Kovács Gyula

HÁTTÉR

A technologyreview-ban Peter Fader-el készült interjú igen nagy viharokat váltott ki az adatbányász közösségekben. A Wharton Egyetem professzora nem állít mást, minthogy a Big Data adatbázisok jelentősége erősen túl van értékelve, a mennyiség helyett érdemes lenne a minőség irányába fordulniuk az elemzőknek.

Az interjú

Az interjúban jó néhány dolog elhangzott, ezek közül a legfontosabbak:

  • A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg. Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket - azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka esetekben)
  • Ettől függetlenül Fader sem tagadta, hogy az óriási adatbázisok teli vannak üzletileg értékes információkkal. A kérdés csak az, hogy mekkora az optimális adatmennyiség. Az általa "data fetish"-nek hívott elemzőkkel szemben éppen azt a kritikát fogalmazta meg, hogy mindenféle kétely nélkül hisznek abban, hogy az adatok méretének növekedésével arányosan növekszik az információ tartalma is.
  • Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as években is tudtak.  Vagy még annyit sem. Az óriási adatok elemzése túlságosan technikai jellegű lett, éppen ezért Fader szerint az adattudósok inkább matematikusok, és kevésbé elemzők.  Pedig az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem minden áron történő kiaknázása.

KOMMENTÁR

Azt hiszem ezek mind igen fontos és hasznos gondolatok, de csak az egyik oldal igazsága.  Tény, hogy az adatelemzés  nemcsak sikertörténet az utóbbi években. A nagyvállalati rendszereken készült elemzések sok esetben igen komoly csalódást okoztak. De azért vannak pozitív példák is. Az online áruházak ajánló rendszereit működtető adatbányászati modellek sikert sikerre halmoznak.

Az hogy mikor sikeres egy adatbányászati elemzés és mikor nem, gyakorlatilag azon múlik, hogy a meglévő adatok és az előrejelzett objektum mennyire szorosan kapcsolódik egymáshoz. Világos, hogy amikor valakinek az érdeklődési körét az alapján próbáljuk beazonosítani, hogy korábban miket vásárolt, akkor az elemzés többek közt azért sikeres, mert a múltbeli adatok szorosan kapcsolódnak az előrejelzés tárgyához.  Ezzel szemben a nagy CRM rendszerekben a múltbeli adatok és az előrejelzés tárgya között sokszor nehéz ilyen erős kapcsolatot felmutatni. Nem is csoda, hogy a churn, x-sell vagy más prediktív modellek a CRM rendszerekben nem vagy csak korlátozottan működnek.

Amikor tehát arról beszélünk, hogy az újabb és újabb adatok hogyan változtatják meg az adatbányászati modellek teljesítményét, akkor érdemes a fenti szeparáció mentén gondolkoznunk. Ha indifferens adatok között (lásd viselkedés vs. churn) próbálunk összefüggést találni, akkor az adatok robbanásszerű növekedésétől se várjunk jelentős modelljavulást.  Amikor viszont az előrejelzéshez már eddig is potens adatokat használtunk, akkor azt érdemes megvizsgálni, hogy az adatmennyiség növekedése meddig hasznos a modellezés szempontjából? Fader többek közt éppen arra próbálta felhívni a figyelmet, hogy a Big Data technológiák által nyújtott elemzési lehetőségek ne jelentsék azt, hogy nem törekszünk az optimális adatbázis méret megkeresésére.

Azonban meglátásom szerint az adatelemzések sikerének vagy kudarcának van egy másik oka is. Ez pedig maga az elemző kvalitása. Tapasztalatom szerint az igazán jó elemzéseknél az elemző gondolkozik és nem a szoftver. Egy jó elemző feladata éppen az, hogy egy olyan adatbázist építsen fel, amelyben az adatok szorosan kapcsolódnak a célváltozóhoz. És itt jön a képbe a Big Data technológia. Amennyiben ezeket a szuper algoritmusokat kizárólag arra használjuk, hogy az óriási adatbázisokat egyből leelemezzük és modellezzük, akkor egyszerű "data scientist"-ek vagyunk. De van másik út is. A Big Data technológia arra is alkalmas, hogy a Fader által említett "határokat" feltérképezzük: Mi az az információ mennyiség amire szükségünk van? Honnantól nem jutunk új információkhoz?

Ez utóbbi esetben a Big Data technológia igen értékes eszköz lehet a számunkra. Nagy kérdés persze, hogy a Clemetine/SAS vizualizációs környezetében szocializálódott elemzők mennyire lesznek képesek elsajátítani ezt a technikát! Ezt az idő fogja eldönteni - addig is azonban számomra a Big Data inkább lehetőség, és nem délibáb.

 

 

Blog
adatbányászat, big data, data mining, Fader, social network
Ne szólj szám, nem fáj fejem?
Kéz a kézben

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress