Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Kié a torta?

Kié a torta?

2013. november 19. kedd Bejegyezte Kovács Gyula

Háttér

Az elmúlt években igencsak átalakult a hazai adatbányász társadalom. Az egyik legfontosabb változás ezek közül, hogy az egyetemi és akadémiai oldal egyre intenzívebben próbál terjeszkedni az üzleti szférában. A következő cikkünk arra keresi a választ, hogy a közeljövő adatbányászati piacán milyen szerep juthat az üzleti tanácsadók, illetve a tudományos kutatók számára.

Kommentár

TÖRTÉNETI ÁTTEKINTÉS

Először is definiáljuk, hogy kik is a szereplők. Maga az adatbányászat kezdete valahol a Mesterséges Intelligencia (MI) kutatásokig vezethető vissza, azonban az első konkrét elnevezés a 80-as években jelent meg. Az adatbányászat (data mining) mellett igen gyakran használták akkoriban a KDD (Knowledge discovery in databases) kifejezést is. A lényeg persze nem az elnevezés volt, hanem egy új szemléletmód megjelenése. A számítógépek hipergyors elterjedését követő adatrobbanás ugyanis ráébresztette a szakértőket arra az egyszerű tényre, hogy a hagyományos (alapvetően statisztikai) eljárások sok esetben nem alkalmasak a nagy adatbázisok elemzésére. Gyorsan kiderült, hogy az MI kutatások során kifejlesztett algoritmusok (pl. neurális hálók, döntési fák) kiválóan alkalmasak strukturált adatbázisok elemzésére is. A 90-es évek közepére már nemcsak algoritmusok voltak, hanem ezeket keretrendszerbe foglaló adatbányászati módszertanok (SEMMA, CRISP). Ezzel egyidőben kerültek piacra az első komolyabb data mining szoftverek, így a SAS Enterprise Miner, ISL Clementine vagy az IBM Intelligent Miner. Ezek a szoftverek nagyon gyorsan meghódították az üzleti szférát is, köszönhetően a viszonylag egyszerű felhasználói felületüknek.  Az egyszerű kezelhetőség lehetőséget biztosított nem "szakmabelieknek" is, hogy önállóan tudjanak adatbányászati elemzéseket készíteni. Az üzleti oldalon elsősorban közgazdászok és informatikusok kezdték el használni ezeket a szoftvereket, sokszor mélyebb elméleti adatbányászati ismeretek nélkül, de sikeresen, mivel az üzleti adatok addig egyáltalán nem voltak kielemezve. Szeretném felhívni az olvasók figyelmét, hogy közben a tudományos oldalon továbbra is óriási ütemben folytatódtak a kutatások, sok új algoritmus és metódus került kifejlesztésre. De a 90-es évek végén ez a két társadalom szinte nem is tudott egymásról.

Itthon is hasonló volt a helyzet. Jómagam 97-ben ismerkedtem meg a Clementine szoftverrel, és számos projektet vittem végig hazai cégeknél. De persze nem voltam egyedül, a 2000-es évek elejére több komoly méretű (20-30 fős) adatbányászati tanácsadó cég nőtt ki a földből, sőt maguk a nagy cégek (telko vállalatok, bankok, biztosítók) is elkezdték kialakítani saját adatbányász csapatukat.  Ezzel párhuzamosan a BME-n, SZTAKI-ban vagy Veszprémi Egyetemen komoly adatbányászati műhelyek alakultak ki, de ezek a műhelyek az üzleti szférával alig érintkeztek, leginkább csak K+F projekteken keresztül találkozott a két "világ".

A 2000-es évek közepén azonban gyökeres fordulat állt be. Ekkor került  bevezetésre ugyanis az innovációs járulék, ami óriási lökést adott az egyetemi műhelyek számára. Az egész szabályozás lényege éppen az volt, hogy a cégek a K+F pénzük nagy részét az egyetemek és akadémiai intézetek műhelyeiben költsék el.  Mivel az adatbányászat alkalmas volt arra, hogy K+F kutatások közé sorolják be, így nagyon sok cég egyetemekkel kezdett együtt dolgozni, és így hirtelen új szereplők jelentek meg az adatbányászati  piacon.  Ráadásul ezek a hazai adatbányász kutatók olyan algoritmusokat fejlesztettek ki, amelyek a hagyományos adatbányászati szoftverekben nem voltak megtalálhatók, azaz olyan megoldásokat tudtak szállítani, amelyek a korábbi adatbányászati elemzéseket jól kiegészítették.

Az innovációs járulék azonban csak katalizátor volt (később egyébként meg is szűnt), mivel a kutatók gyorsan felismerték tudásuk üzleti értékét, és elkezdtek létrehozni saját cégeket. Ilyen volt a Gravity, Scarab Research, X-droid, akik egy konkrét algoritmus köré építették fel a cégüket, vagy a DM Lab, akik tanácsadó cégekhez hasonlóan, általános adatbányászati megoldásokat kínáltak. Közben az üzleti tanácsadás megtorpant, ennek elsődleges oka egyszerűen az volt, hogy a legtöbb bank vagy telekommunikációs cég szép lassan kiépítette saját adatbányászati/CRM csapatát, és megvásárolta az elemzésekhez nélkülözhetetlen adatbányászati szoftvereket is.

És eljutottunk napjainkig, ahol jogosan felmerülhet az a kérdés, vajon hosszabb távon kié lesz a hazai adatbányász piac? Konrétan: a tudósoké vagy a tanácsadóké.

SWOT HELYETT SW

Gondolom mindenki ismeri a SWOT analízist. A kifejezés egy módszertant takar, amely egy piac, cég vagy egy innováció üzleti lehetőséget vizsgálja 4 dimenzió mentén: "Erősség" (Strength), "Gyengeség" (Weak), "Lehetőség" (Opportunity) és "Veszélyek" (Threats).

A feltett kérdés tehát az, hogy a jövő adatbányászati piacán mi várható: tovább erősödik a kutatói oldal vagy a piacon hosszabb távon mégis a tanácsadó cégek maradnak dominánsak? Nos a kérdés megválaszolásához egy rövid SW elemzést  fogunk bemutatni, ahol a két oldal erőssége és gyengesége lesz felsorolva.

A következő szituációkban vizsgáltuk a két oldalt:

  • Mennyire általános/egyedi az adott probléma?
  • Menyire alkalmazható a probléma megoldására egy hagyományos adatbányászati szoftver?
  • A adatbányászati probléma megoldása milyen mértékben beágyazott az üzleti folyamatokba?

1. Mennyire általános/egyedi az adott üzleti probléma?

Első ránézésre egyértelmű a válasz: az egyedi problémák esetén a kutatók vannak előnyben, hiszen ilyenkor legtöbbször egy teljesen új algoritmust kell fejleszteni, amihez értelemszerűen a kutatók jobban értenek. Napjainkban ilyen problémákat sok esetben éppen a nagy adatbázisok generálnak. Az ún. Big Data adatállományok elemzésénél nem jöhetnek szóba a hagyományos adatbányászati szoftverek, az adatbázisok komplexitása a legtöbb esetben egyedi megoldást kíván.

Vannak olyan problémák, amelyek megoldásánál a módszertan ugyanaz, de minden új adatbázis esetén egy önálló elemzésre kerül sor. Tipikusan ilyen feladat bizonyos prediktív modellek elkészítése, pl. a churn modellezés. Ilyenkor azok vannak előnyben, akiknek nagyobb projekt tapasztalata van. Ilyen tekintetben a hazai tanácsadók igen jelentős előnnyel rendelkeznek.

És legvégül vannak olyan problémák, amelyek teljesen automatizálhatók. Itt elméletileg mindkét oldal egyforma eséllyel indult, de mégis a kutatói oldal ért el nagyobb sikereket. A legnagyobb hazai ajánló rendszerek pl. mind kutató műhelyekből indultak el. Azonban azt is látni kell, hogy az spin-off/start-up fázist követően ezeknél a cégeknél a siker záloga nem a fejlesztések minőségén múlt, hanem a bevont üzletemberek agilitásán. Így ezeknél a cégeknél a kutatói oldal és az üzleti oldal szimbiózisának lehetünk tanúi.

2. Menyire alkalmazható a probléma megoldására egy hagyományos adatbányászati szoftver?

Az adatbányászat sikerének egyik kulcsfontosságú tényezője, hogy rendkívül jól kezelhető data mining szoftverek jelentek meg. Máshogy fogalmazva:  ezen szoftverek megjelenése generált egy új üzletágat, magát az üzleti adatbányászatot. Éppen ezért a 2000-es évek közepéig az üzleti életben az számított adatbányászati problémának, ami Clementine-al vagy Enterprise Miner-el megoldható volt. Ennek megfelelően elég jól definiálható volt az adatbányászok köre: mindenki az volt, aki értett ezen szoftverekhez.

A 2000-es évek közepén azonban egy máig ható változás indult el, megjelent egy új virtuális tér  - az online közösségi média. A közösségi média és az így keletkező adatok egy teljesen új irányba terelték a BI (üzleti intelligencia) fejlesztéseit, a klasszikus adattárházak világa helyett egy teljesen új platform jelent meg, ahol az adatok felhőkben voltak teljesen kötetlen formátumban, és ezen adatbázisok mérete korábban elképzelhetetlen méreteket kezdett ölteni. Az új adatbázisok elemzése teljesen új megoldásokat követelt, a hagyományos adatbányászati szoftverek szofisztikált algoritmus-halmaza nem sokat ért. Napjainkban a Big Data elemzések elsődlegesen informatikai képességeket igényelnek, kevésbé adatbányászati ismereteket. A kutatói oldalon számos olyan tehetséges adatbányász bukkant fel, akik rendelkeznek ilyen informatikai képességekkel.

De történtek más változások is, így az online media felületek (Facebook, Twitter, blogok) automatikus elemzésének gyors elterjedése.   Az online média felületek elemzése elsősorban szövegbányászati eljárásokkal történik, a szövegbányászok sok esetben nem matematikusok vagy informatikusok, inkább nyelvészek. Itthon a Neticle vagy a Replise (korábban Brandmonitor) néhány év alatt szinte a semmiből épített fel egy teljesen új szolgáltató szegmenst. Bár a technológiájuk adatbányászati alapokon nyugszik (pontosabban szövegbányászaton),  ezek a cégek mégsem használnak klasszikus data mining szoftvereket, inkább saját fejlesztésű megoldásaik vannak.

Ami a tanácsadó kontra kutató kérdéskört illeti, itt egyértelmű a helyzet. A tanácsadók továbbra is azokat a problémákat tudják jól kezelni, amire vannak kész szoftveres megoldások, a Big Data és a nem strukturált adatok elemzéséből éppen ezért lemaradtak (mivel ezekre nincsenek kész megoldások). A kutatói oldal ezeken a területeken lényegesen aktívabb, de az új online média felületek olyan mértékben alakították át az üzleti gondolkodást (hirdetés, marketing, pr), hogy az üzleti sikereket helyettük olyanok aratták le, akik jobban megértették az új világ működését.

3. A adatbányászati probléma megoldása milyen mértékben beágyazott az üzleti folyamatokba?

Most térjünk vissza a hagyományos adatbányászat terepére, azaz nagy pénzügyi vagy telekommunikációs szolgáltatók adatainak elemzésére. Ezen elemzések többsége CRM rendszerekhez kapcsolódik, azaz támogatniuk kell az ügyfélmegtartást és  a keresztértékesítést.  Vegyük azonban észre, hogy ezek az elemzések igazából csak eszközök a CRM és marketing igazgatók kezében, a valódi céljuk az ügyfél jövedelmezőség (és így a vállalat profitabilitásának) növelése. Ezen célok eléréséhez az adatbányászat segítséget nyújthat, de rengeteg egyéb tényezőtől is függ a siker. Pl. Nem elég előrejelezni, hogy mely ügyfelek a potenciális elvándorlók, e mellé ki kell találni a megtartási ajánlatokat, a ügyintézők premizálását össze kell hangolni a CRM célokkal, érthetően kell megjeleníteni az ügyintézők számára az ügyfél információkat, és még sorolható.

Jól látható, hogy az ügyfél jövedelmezőség növelése kizárólag adatbányászati tudással nehezen érhető el. Ezeknél a problémáknál a tanácsadók a kutatókhoz képest azért vannak előnyben, mert (CRM) projekt tapasztalatuknak köszönhetően olyan megoldásokat szállítanak, ami jól illeszkedik az adott cég stratégiai céljaihoz (egy közelmúltbeli példa az Andego életéből: egy biztosítónak fél év alatt fejlesztettünk le egy csalás detektáló rendszert, de utána 1 évig tartott azon tanácsadási folyamat, mire a kárszakértők ténylegesen használni kezdték munkájuk során!).

Azonban nemcsak CRM jellegű problémák vannak. Vannak olyanok is, amelyek nem épülnek be szervesen üzleti folyamatokba, ellenben nagyon fontos a modellek minél jobb teljesítménye. Ilyen terület pl. az adattisztítás/egységes ügyféltörzs kialakítása. Ez egy nagyon jól definiálható, egzakt feladat, amihez nem kell ismerni a cég CRM rendszerét vagy üzleti stratégiáját. Ennek ellenére adattisztítást nagyon sok tanácsadó cég is kínál. Ennek oka az, hogy viszonylag egyszerű algoritmusokkal nagyon látványos eredményt lehet elérni. De azt is látni kell, hogy ezek a próbálkozások igen messze vannak az optimálistól. A kutatók ezt észrevették, és az utóbbi időben több olyan megoldással is megjelentek a piacon, melyek lényegesen jobban teljesítenek a kutatók "primitív" módszereihez képest.  Egy ilyen új hazai fejlesztés pl. a SZTAKI Longneck nevű open source megoldása.

ÖSSZEFOGLALÁS

Hogy kié lesz a torta? A fenti gondolatmenet alapján szerintem nem ez a kérdés, inkább az, hogy hány torta van és azokon kik fognak osztozni? Egy lehetséges felosztás:

  • A hagyományos CRM torta valószínűleg továbbra is az adatbányászai/CRM tanácsadók felségterülete lesz, de néhány szelet azért jut a kutatóknak is.
  • A Big Data torta ezzel szemben inkább a kutatókhoz kerül, illetve eddig adatbányászattal nem vagy csak érintőlegesen foglalkozó informatikusokhoz (lásd Data Scientist közösség).
  • A közösségi média tortából viszont lehet hogy mindkét fél kimarad. A közösségi média elemzése ugyanis új szereplők kezébe került, és nem úgy néz ki, hogy ebben lesz bármiféle változás.
  • Az intelligens applikációk tortája (hangbányász vagy hálózati algoritmusokra épülő elemző szoftverek, de ide tartoznak az ajánló rendszerek is)  viszont közös lesz, mivel ilyen rendszerek fejlesztése csak akkor lehet sikeres, ha az elméleti háttér mellé megfelelő üzleti logikai is társul.

 

 

 

Blog
big data, CRISP, data mining, data scientist, Facebook, longneck, semma, szövegbányászat
Digitális hekkelés – élménybeszámoló
Hipermnézia és CRM

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress