Háttér
Napjainkban egyik legnagyobb BI mémje a "Big Data" kifejezés. Szinte nincs olyan BI esemény, ahol ne Big Data lenne a központban, azonban érdekes módon a hazai adatbányász szakmát egyenlőre nem igazán érintette meg a téma.
A Big Data témát körbejáró cikksorozatunk záró részében az Andego Tanácsadó Kft. vezetőjének, Kovács Gyulának, néhány gondolata olvasható.
3. rész - Adatbányászat és a Big Data
A korábbi részekből tudjuk, hogy a hazai adatbányász szakmát még nem igazán hozza lázba a Big Data technológia. Pedig a cikksorozat második részében, Prekopcsák Zoltánnal készített interjúból megtudhattuk, hogy éppen az adatbányászok számára lehetne igazán érdekes ez az egész. Itt elég arra gondolnunk, hogy a memória alapú Data Mining algoritmusok viszonylag kisebb méretű adatbázisokkal sem tudnak mindig elboldogulni, így bizonyos problémák esetén (például csalás detektálás) a hagyományos adatbányászati megközelítés fizikai korlátokba ütközhet.
Mégis mint láttuk, egyenlőre az adatbányászok elég nagy távolságból követik az eseményeket. És ez nemcsak hazai jelenség. Nemrég 5 külföldi data mining szoftver szállító portfólióját vizsgáltam meg, és közülük csak kettő rendelkezett big data/cloud technológiára épülő megoldással.
De példának említhetném jómagamat is. Az egyáltalán nem állítható, hogy nem próbálom követni a Big Data-val kapcsolatos híreket, eseményeket. Viszont nagyon ritkán találkozom olyan írással, ami tényleg felkelti az érdeklődésemet (itt egy kivétel - ami tetszett). Legyünk őszinték: sok elemzőnek önmagában az nem okoz örömet, hogy sikerül egy bonyolult lekérdezést óriási adattömegen végrehajtani. Egy elemző akkor érzi elemében magát, ha eljut egy olyan adatbázisig, ahol nincs méret korlát, és kedvére elemezheti az adatokat. Nos a Big Data ilyen értelemben, inkább ellenségnek tűnik, mint barátnak.
De mint láttuk, rajtam kívül még sok adatbányász érez hasonlóan. Vajon úgy általában mi lehet az érdektelenség oka?
1. kompetencia hiány
Először is érdemes egy kicsit pontosan tisztázni, hogy ki számít adatbányásznak? Ha megnézzük egy adatbányászati projekt lépéseit, akkor egy igen komplex tudással rendelkező szakember képe kezd körvonalazódni. Egyrészt át kell látnia az üzleti folyamatokat, hogy pontosan definiálja a projekt célkitűzéseit (-> közgazdász). Aztán az adatokat össze kell gyűjtenie, fel kell dolgoznia, hogy elkészüljön az elemzési adatbázis (-> informatikus). Ha ez elkészül jön maga az adatelemzés és modellezés (-> statisztikus/matematikus). És ha megvannak a modellek, akkor ezeket be kell építeni üzleti folyamatokba és CRM rendszerekbe (-> kampány/CRM szakértő). És közben azért a projektet is menedzselni kell (-> projektvezető). Tehát egy jó adatbányász egyszerre:
- közgazdász
- informatikus
- statisztikus/matematikus
- CRM szakértő
- projektvezető
Világos, hogy ilyen "BI Supermant" nem sokat fogunk találni a környéken. A 90-es végén éppen az hozta az áttörést, hogy a Clementine/Enterprise Miner vizuális programozási nyelve leegyszerűsítette az adatbányászati projekteket, kevesebb kompetenciával is el lehetett végezni adatbányászati projekteket.
A 2000-es években azonban (még a Big Data megjelenése előtt) kezdett elindulni egy folyamat, ahol a különböző munkafázisokat egyre inkább specialisták vették át, és a 10-15 évvel ezelőtti Superman-ek szép lassan eltűntek. Az adatok feldolgozása az adatok méretének növekedésével egyre komplexebb ismereteket igényeltek, így kialakult egy új kaszt, a data scientist szakemberek kasztja. Az Ő elsődleges feladatuk nem elemzés, hanem óriási adatbázisokból információk hatékony kinyerése.
A Big Data korszak egyenlőre a data scientist szakemberek korszaka, mivel az adatbányászok kezében nincsen olyan eszköz, amely az adatok lekérdezését és elemzését lehetővé teszi egy egyszerű vizuális felületen keresztül (emlékezzünk, hogy 15 éve éppen ez indította el az adatbányászat aranykorát!). Halkan jegyzem meg, hogy a hazai fejlesztésű Radoop talán pont egy ilyen áttörést tesz majd lehetővé (Rapid Miner felületen keresztül lehet Big Data adatokat elemezni). De meglátásom szerint van egy másik oka is annak, hogy az adatbányászok nem aktív felhasználói az óriási adatbázisoknak.
2. Frusztráció
A Big Data egyik nagy ígérete, hogy a rengeteg adaton szükségszerűen jobb modellek készíthetők. Ez látszólag így is van. Ha megkérdezünk egy adatbányászt, hogy még plusz adatokat kér vagy egy jobb modellező algoritmust, akkor 10-ből 9 biztosan több adatot fog kérni. A tapasztalat ugyanis azt mutatja, hogy egy-egy új információ mint egy új puzzle darab, tovább bővíti ismereteinket. De a sok éves tapasztalat mást is mond. Az újabb és újabb adatok egyre kisebb mértékben javítanak a modellek teljesítményén (ha egyáltalán javítanak - lásd erről egy korábbi blog bejegyzésünket). Van egy adatméret optimum, ami után az adatok költsége nagyobb, mint az új adatok által nyert haszon. Ha valaki csinált churn modellt vagy x-sell modellt, akkor sokszor átélhette azt, hogy az első kezdetleges modell alig volt rosszabb, mint a sokkal több adatra épülő végső modell.
Ráadásul a közelmúltban mindannyian átéltünk egy "több adatból biztosan jobb modell" lesz élményt, mégpedig a CRM rendszerek megjelenésekor. A CRM rendszerek valódi adatrobbanást idéztek elő (kampány adatok!), de a modellek érdemben alig javultak (sőt az intenzív kampányok sok esetben "kannibalizálták" a korábban jól működő modellek teljesítményét).
Ettől függetlenül a hanganyagok, videók, szövegek feldolgozása adhat újabb lendületet az adatbányászatnak. De itt se biztos, hogy szükség lesz Big Data technológiára. Itthon is elindult számos voice mining/text mining kutatás, amiknek a lényege éppen az, hogy a nem strukturált adatokból strukturált adatokat hozzanak létre. Vegyük észre, hogy a kapott strukturált adatok már vígan elférnek hagyományos adattárházakban, az adatbányászoknak tehát továbbra se lesz szüksége Big Data megoldásokra.
Zárszó
Napjainkban a BI egy igazán izgalmas, forrongó technológiai terület. Egyre másra jönnek ki új megoldások, azonban az adatbányászaton belül ez a pezsgés kevésbé érzékelhető. Az is elképzelhető, hogy mire a Big Data eléri hazánkat, addigra jön egy új mém, idejétmúlttá téve az egész korábbi technológiát (már hallani a Smart Data fogalmát és más egyenlőre egzotikus kifejezést is). Én úgy gondolom hogy a klasszikus vállalati CRM adatvagyonra épülő adatbányászat konzerválódni fog a következő években, azaz a Big Data hullámok továbbra se érik el ezeket a cégeket. Ha mégis, akkor is első körben az ETL fejlesztésekre lesz hatással, és csak utána az adatbányászati elemzésekre.