Háttér
Közelmúltban zárult le a Clementine Consulting által kiírt I. Diplomakupa. A versenyben a diplomamunkák elsősorban adatbányászati szempontból lettek kiértékelve. A zsűriben az Andego Tanácsadó Kft.-t a cég ügyvezető partnere, Kovács Gyula képviselte.
Kommentár
Mindig élmény találkozni fiatal elemzőkkel, és látni mit is tudnak kezdeni egy számukra ismeretlen adatbázissal. Nos a Clementine Consulting által kiírt Diplomakupa célkitűzése többek közt éppen ez volt. A versenyre 8 pályázat érkezett, és számos figyelemreméltó dolgozat is volt köztük. Az első helyezett Badics Milán (Corvinus Egyetem) egy igen érdekes problémával jelentkezett: ingatlanok árát próbálta megbecsülni az ingatlanok adatai alapján. Ehhez hirdetési adatokon túl több külső adatot is felhasznált. A dolgozat több szempontból is kiemelkedő volt, de én most csak egyet emelnék ki: az ingatlanokat nem egyben elemezte, hanem több résszegmensre osztotta (értékes/kevés értékes ingatlanok), majd ezen szegmensekre külön-külön készített el elemzéseket.
De miért is EZT emelem ki a dolgozatából?
Igazából azért, mert ez a fajta megközelítés jellemző egy igazi adatbányászra. Hogy pontosan mire is gondolok, ahhoz felrajzolok néhány grafikont. Az első a tradicionális, nevezzük statisztikus elemzési gyakorlatát mutatja be:
A grafikon azt próbálja szemléltetni, hogy itt az elemző szinte kizárólag a változók közötti összefüggésekre koncentrál (lásd nyilak). Ez lehet korrelációs vizsgálat, kereszttábla, regressziós modell vagy más statisztikai elemzés. Előfordul, hogy az elemző létrehoz ún. származtatott változót, és ezeket a változókat is bevonja a vizsgálatba. DE! Ennél az elemzési módszertannál az elemző a teljes sokaságon belül keresi az összefüggéseket. Ezt a sokaságot nem akarja megbontani, úgy tekint rá, mint egy oszthatatlan alapegység.
Ez sok esetben egyébként indokolt is lehet, de amikor nagy ügyféladatbázisokat elemzünk, akkor tudjuk azt is, hogy az ügyfélhalmaz igen eltérő csoportokból állhat össze. Gondoljunk itt a döntési fákra. A döntési fák minden ága gyakorlatilag több részre osztja a sokaságot, és az esetek többségében a különböző ágakon teljesen más összefüggések érvényesek. Nézzünk egy "klasszikus" döntési fát, a Titanic túlélési fáját (részlet):
A diagram szerint a túlélés szempontjából a Nők és Férfiak szegmense teljesen eltért egymástól. A nők túlélési esélye eleve magasabb volt, de nem is ez az izgalmas, hanem hogy a Női szegmensen belül már a többi demográfiai jellemző indifferens volt a túlélés szempontjából, míg a Férfiaknál a kor és a hajón lévő családtagok száma jelentős hatással volt a túlélési esélyekre. Vagyis épp az történt itt is, amire utaltam - a két részsokaságon belül teljesen más összefüggések érvényesek!
Éppen ezért az adatbányász a következő metódus szerint dolgozik: (1) a teljes sokaságot minél "jobban" megpróbálja szegmentálni, (2) és csak a szegmenseken belül próbál statisztikai összefüggéseket keresni. Ezt szemlélteti a következő ábra:
A fenti grafikon azt mutatja tehát, hogy az adatbányász először megpróbálja a heterogén sokaságot valamilyen szempontból egységes szegmensekre szétbontani (lásd férfi/nő vagy céges/magán, stb.), és utána az új szegmenseken belül létrehoz új változókat (a szegmensenként ezek eltérőek lehetnek!), és ezen szegmenseken belül keres összefüggéseket.
Egy következő cikkben arra mutatok majd példákat, hogy milyen módszerekkel lehet értelmesen felosztani az alapsokaságot.