HÁTTÉR
A technologyreview-ban Peter Fader-el készült interjú igen nagy viharokat váltott ki az adatbányász közösségekben. A Wharton Egyetem professzora nem állít mást, minthogy a Big Data adatbázisok jelentősége erősen túl van értékelve, a mennyiség helyett érdemes lenne a minőség irányába fordulniuk az elemzőknek.
Az interjúban jó néhány dolog elhangzott, ezek közül a legfontosabbak:
- A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg. Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket - azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka esetekben)
- Ettől függetlenül Fader sem tagadta, hogy az óriási adatbázisok teli vannak üzletileg értékes információkkal. A kérdés csak az, hogy mekkora az optimális adatmennyiség. Az általa "data fetish"-nek hívott elemzőkkel szemben éppen azt a kritikát fogalmazta meg, hogy mindenféle kétely nélkül hisznek abban, hogy az adatok méretének növekedésével arányosan növekszik az információ tartalma is.
- Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as években is tudtak. Vagy még annyit sem. Az óriási adatok elemzése túlságosan technikai jellegű lett, éppen ezért Fader szerint az adattudósok inkább matematikusok, és kevésbé elemzők. Pedig az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem minden áron történő kiaknázása.
KOMMENTÁR
Azt hiszem ezek mind igen fontos és hasznos gondolatok, de csak az egyik oldal igazsága. Tény, hogy az adatelemzés nemcsak sikertörténet az utóbbi években. A nagyvállalati rendszereken készült elemzések sok esetben igen komoly csalódást okoztak. De azért vannak pozitív példák is. Az online áruházak ajánló rendszereit működtető adatbányászati modellek sikert sikerre halmoznak.
Az hogy mikor sikeres egy adatbányászati elemzés és mikor nem, gyakorlatilag azon múlik, hogy a meglévő adatok és az előrejelzett objektum mennyire szorosan kapcsolódik egymáshoz. Világos, hogy amikor valakinek az érdeklődési körét az alapján próbáljuk beazonosítani, hogy korábban miket vásárolt, akkor az elemzés többek közt azért sikeres, mert a múltbeli adatok szorosan kapcsolódnak az előrejelzés tárgyához. Ezzel szemben a nagy CRM rendszerekben a múltbeli adatok és az előrejelzés tárgya között sokszor nehéz ilyen erős kapcsolatot felmutatni. Nem is csoda, hogy a churn, x-sell vagy más prediktív modellek a CRM rendszerekben nem vagy csak korlátozottan működnek.
Amikor tehát arról beszélünk, hogy az újabb és újabb adatok hogyan változtatják meg az adatbányászati modellek teljesítményét, akkor érdemes a fenti szeparáció mentén gondolkoznunk. Ha indifferens adatok között (lásd viselkedés vs. churn) próbálunk összefüggést találni, akkor az adatok robbanásszerű növekedésétől se várjunk jelentős modelljavulást. Amikor viszont az előrejelzéshez már eddig is potens adatokat használtunk, akkor azt érdemes megvizsgálni, hogy az adatmennyiség növekedése meddig hasznos a modellezés szempontjából? Fader többek közt éppen arra próbálta felhívni a figyelmet, hogy a Big Data technológiák által nyújtott elemzési lehetőségek ne jelentsék azt, hogy nem törekszünk az optimális adatbázis méret megkeresésére.
Azonban meglátásom szerint az adatelemzések sikerének vagy kudarcának van egy másik oka is. Ez pedig maga az elemző kvalitása. Tapasztalatom szerint az igazán jó elemzéseknél az elemző gondolkozik és nem a szoftver. Egy jó elemző feladata éppen az, hogy egy olyan adatbázist építsen fel, amelyben az adatok szorosan kapcsolódnak a célváltozóhoz. És itt jön a képbe a Big Data technológia. Amennyiben ezeket a szuper algoritmusokat kizárólag arra használjuk, hogy az óriási adatbázisokat egyből leelemezzük és modellezzük, akkor egyszerű "data scientist"-ek vagyunk. De van másik út is. A Big Data technológia arra is alkalmas, hogy a Fader által említett "határokat" feltérképezzük: Mi az az információ mennyiség amire szükségünk van? Honnantól nem jutunk új információkhoz?
Ez utóbbi esetben a Big Data technológia igen értékes eszköz lehet a számunkra. Nagy kérdés persze, hogy a Clemetine/SAS vizualizációs környezetében szocializálódott elemzők mennyire lesznek képesek elsajátítani ezt a technikát! Ezt az idő fogja eldönteni - addig is azonban számomra a Big Data inkább lehetőség, és nem délibáb.