Háttér
A Clementine Consulting által szervezett Clem Club rendezvényén legutóbb egy igen érdekes vita kerekedett ki arról, hogy kinek a felelőssége az adatbányászati modellek integrálása. Volt aki szerint ez az üzleti szakértők dolga, mások szerint viszont ezt is az adatbányászoknak kellene végezniük. Ezzel kapcsolatban Kovács Gyula, az Andego Tanácsadó Kft. ügyvezető igazgatója fejti ki álláspontját.
Kommentár
Amikor adatbányászatról beszélünk, akkor nem árt rákérdezni, hogy „mit is teccik érteni ez alatt?”. Ez már egy ősrégi probléma, de mi most adatbányászat alatt konkrétan az adatbányászati projekteket értjük, azaz végig arról szól az írás, hogy mi is tartozik bele egy adatbányászati projektbe és mi nem? De egyáltalán ez nem lerágott csont? Már lassan 20 éves a CRISP módszertan, ami az egyik legáltalánosabban elfogadott metódus adatbányászati projektekre.
Csak emlékeztetőül. Az egész projekt az üzleti probléma megértésével indul, majd utána ez adatbányászati célokká lesz átalakítva (Business Understanding). Nyilván az üzleti célokra adott megoldás függ az adatok minőségétől, így fontos a projekt célok definiálásával párhuzamosan megismerni magukat az adatokat is (Data Understanding). Utána a jól ismert lépések következnek, így az adatfeldolgozás (Data Preparation), modellezés (Modeling) és végül a kiértékelés (Evaluation). De itt még nincs vége! Van egy utolsó fázis, mégpedig a „Deployment” vagyis az alkalmazás fázis. Nos a hivatalos definíció szerint ez sok mindent jelenthet:
- egy egyszerű riportot,
- vagy akár összetett informatikai rendszert,
- vagy valamit e kettő között.
A CRISP abban is szabad kezet ad, hogy az alkalmazás megvalósításáért ki felel. Alapvetően inkább a megrendelői oldalt javasolja, de nem zárja ki annak a lehetőségét, hogy az adatbányász készítse el az alkalmazást.
De biztosan értjük, hogy mit takar a "Deployment" fázis?
Az elmúlt évek projekt tapasztalatai alapján bennem két kérdés azonnal felvillan:
1. Mit is jelent a valóságban a „Deployment” fázis?
2. Ki is legyen felelős a „Deployment” fázis végrehajtásáért?
Először nézzük meg az adatbányászati projektek hogy zárulnak a valóságban!
Van olyan projektek, ahol az elemzés végén nem történik semmi. Nem jellemző, de előfordul. Amikor van rendes zárás, akkor is sokszor ez kimerül egy prezentációban (riport ág). Ezek azok a prezentációk, ahol mindenki lelkes, de utána többnyire nem történik semmi. Azon persze érdemes elgondolkozni, hogy miért nem? Ha megnézünk egy ilyen prezentációt, akkor többnyire ilyen felépítéssel találkozunk.
- Bevezetés
- Projekt ismertetése (1-3 oldal)
- Adatfeldolgozás (0-10 oldal)
- Adatelemzés, eredmények bemutatása (5-20 oldal)
- Modellek bemutatása, benne módszertani bemutató!!! (3-10 oldal)
- Modellek kiértékelése, többnyire LIFT/GAIN görbékkel megterhelve!!! (1-5 oldal)
- Hogyan tovább? (0 oldal, esetleg több)
Azt nem mondom, hogy alapból rossz egy ilyen prezentáció, de nem ez kell hogy a célja legyen a projektnek. Az egy nagy téveszme, hogy a döntéshozóknak tudniuk kell, milyen változók alapján épült fel a modell! Őt az érdekli, hogy az elemzések költségei hogyan térülnek meg. Az elemző feladat egy ilyen prezentáció során meglátásom szerint a következő:
- Milyen eredmények jöttek ki – ez a projekt elején elvárthoz képest jobb vagy rosszabb
- A modell alkalmas-e arra, hogy később üzleti folyamatokba integrálva profitot hozzon
- Milyen szervezeti és IT fejlesztéseket kell elvégezni, hogy a modell hozza a fenti profitot
- A beruházás mikor fog megtérülni?
A cél tehát az, hogy a projekt folytatódjon, méghozzá úgy, hogy a szükséges fejlesztések megvalósuljanak. Azaz a riport célja nem más, mint hogy a projekt „Riport” ágról átkerüljön a „Fejlesztés” ágra.
Nézzük mi történik akkor, amikor elindulnak a fejlesztések. Amennyiben egy weboldal ajánló rendszeréről van szó, akkor nincs más dolgunk, mint az algoritmust lefejleszteni, és nézni az (online) értékesítési adatokat. Itt azért nincs nagy gond, mert az ajánló motor integrációja nem generál egyéb, szervezeti kérdéseket.
Más a helyzet, ha az eredmény ún. CRM rendszerbe kerül (pl. churn modell, x-sell modell, ügyfélérték). Itt ugyanis a legtöbb esetben a következő történik:
- Adatbányászati modell kiszámol minden ügyfélre egy score-t (pl. churn score-t)
- A score alapján az ügyintézők differenciáltan kezelik az ügyfeleket.
És itt kezdődik az adatbányászati projektek „vesszőfutása”. Hogyan kezeljük differenciáltan az ügyfeleket? Vegyük például a churn score-t (ami annak a valószínűsége, hogy az adott ügyfél elvándorol-e). Mit kell tenni ha magas, közepes vagy alacsony a churn score? Egyáltalán kinél tekinthető magasnak a churn score (hol húzzuk meg a határt)? Akinek magas a churn score-ja, azt milyen csatornán keressük meg? Mit mondjunk neki, milyen megtartási ajánlatot adjunk neki? Az ajánlat adásnál figyelembe vegyük az ügyfélértéket? És ha igen, akkor hogyan vegyük figyelembe? stb.
Kérdések, amelyeket meg kell válaszolnunk ahhoz, hogy legyen vállalati szinten egységes CRM stratégia. A kérdés csak az, hogy ki csinálja a CRM stratégiát?
Múlt héten a Clem Club-ban gyakorlatilag ezen ment a vita. Elsőre úgy tűnik, hogy ez már nem az adatbányász feladata. De a gyakorlat mást mutat. Az ügyfél pont az adatbányászati projekt végén érzi azt, hogy végül is nem ért az egészből semmit. Ha ekkor magukra hagyjuk őket, akkor szinte biztos, hogy nem készül el CRM stratégia, és így nem fog jól működni maga a CRM rendszer sem. Bármilyen különösnek tűnik, de a stratégia alkotásnál az adatbányász szerepe megkerülhetetlen. Ez nem azt jelenti, hogy egy átlagos adatbányász alkalmas megfelelni ennek az elvárásnak, a legtöbb esetben egy matematikusról van szó, aki az adatok és számok nyelvén ért kizárólag. DE egy adatbányász segítsége nélkül mégis nehéz jó stratégiát felépíteni. Az adatbányász tudja elmagyarázni, hogy miért magas vagy alacsony egy score, Ő tud segíteni abban, hogy hol húzzunk kategória határokat vagy abban is, hogy mit ajánljunk egy ügyfélnek. Ezek ugyanis mind olyan kérdések, mely elemzésekkel jól megtámogathatók.
Összefoglalás
A cikk írásakor részletesebben szerettem volna olvasni a CRISP metódusról, és rámentem a hivatalos oldalára (crisp-dm.org). Nos ez az oldal már nem létezik. A Wikipedia szerint a CRISP projekt kifulladt, nem lehet róla hallani semmit. Teljesen nem tűnt el az idő feledésében, mivel az IBM Modeller-ben a CRISP szerint lehet felépíteni egy stream rendszert. Mégis úgy tűnik az idő elszállt felette. Talán éppen azért, mert pont a lényegre nem adott jó választ.
Egészen a Deployment fázisig jól leírja az elemző lépéseit, de éppen az utolsó lépésnél nem igazán nyújt segítséget. Egy kicsit olyan, mintha egy krimi végén nem tudnánk meg, hogy ki a gyilkos. Amennyiben az adatbányászok kicsit bátrabbak lesznek a jövőben (mernek gyilkosok lenni), talán újra lendületet kaphatnak a hagyományos adatbányászati projektek (persze kevés halottal ).