Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • A rosszat tudod javítani – a jót nem!

A rosszat tudod javítani – a jót nem!

2019. október 28. hétfő Bejegyezte hadhazi

Nagyjából 2 éve vagyok Spotify előfizető. Azóta kitárult előttem egy olyan zenei spektrum, amiről korábban nem is álmodtam! Éppen ezért imádom ezt az alkalmazást.

És gyűlölöm is. Legalábbis a heti válogatás funkcióját ("E heti kaland"). Ez egy dallista, amit minden héten a Spotify állít össze zenei ízlésem alapján. Nos, ez a funkció borzasztóan funkcionál. Szinte minden héten egy számomra teljesen érdektelen 70-es évekbeli egyveleget kapok. Holott ha van valaki, aki minden jó zenére nyitott - az én vagyok. Szinte nincs olyan zenei műfaj, ami ne hallgatnék szívesen.  De a Spotify nem tágít – valamiért beskatulyázott a fenti szegmensbe.

Vajon miért nem tud jó mixeket összerakni nekem? Vannak cégek, melyek rengeteg pénzt áldoztak és áldoznak profi ajánló rendszerek kidolgozásába. Ilyen a Netflix vagy az Amazon. Azonban aki foglalkozott ilyen tipusú elemzésekkel, az azt is tudja, hogy nem egyszerű lemodellezni a vásárlók érdeklődési körét!

Hogy a Spotify mit ront el, nem tudom, de az alábbi cikkben bemutatok egy tipikus modellezési hibát, amit kezdő elemzők gyakran elkövetnek ajánló rendszerek építésénél.

Upsell és cross-sell  két jól ismert fogalom, de sokak számára nem teljesen tiszta mit is takarnak ezek a kifejezések. Ami közös bennük, hogy mindkettő a vásárlási aktivitást vagy értéket próbálja növelni.

Upsell: amikor a vásárlót arra bátorítod, hogy válassza egy drágább verzióját a kiválasztott terméknek vagy szolgáltatásnak, illetve amikor kiegészítő szolgáltatásokat próbálsz eladni a kiválasztott termékhez vagy szolgáltatáshoz (pl. hosszabb idejű garanciát).

X-sell: amikor a vásárlót egy olyan termék vásárlására biztatod, ami kiegészítheti (illeszkedhet)  meglévő vásárlói kosarához (laptoptáskát a laptop vásárlónak).  A cross-sell értékesítés sikerét jelentősen növeli, ha beazonosításra kerülnek a vásárló valódi vásárlási igényei.

Keresztértékesítés vitathatatlan előnye, hogy lényegesen hatékonyabb meglévő ügyfélnek eladni valamit, mint egy új ügyfélnek (Saas benchmarking felmérése szerint új ügyfél esetén 1$ érték elérének költsége 1.18$, míg meglévő ügyfél esetén csak 0.28$). Ugyancsak nem mellékes hozadéka a keresztértékesítésnek, hogy ha jól csináljuk, akkor ezáltal nő az ügyfélelégedettség és ezen keresztül az ügyfél lojalitás.

És a hangsúly itt a „jól csináljuk”-on van. Amennyiben a vásárlókat érdektelen ajánlatokkal bombázzuk, akkor a fenti előnyök visszafelé sülhetnek el: keresztértékesítés költsége nem fog megtérülni, és az ügyfelek elégedetlensége is növekedhet.

Nagyon fontos tehát a pontos targetálás, és itt jön a képbe az adatelemzés. Az alapgondolat rém egyszerű, a korábbi vásárlói szokások alapján próbáljuk megbecsülni az ügyfelek vásárlási igényeit. Erre számos eljárást alkalmaznak, ezek közül néhány:

  • Hasonló preferenciájú ügyfélszegmensek kialakítása: demográfiai adatok és/vagy korábbi vásárlási adatok alapján olyan szegmensek létrehozása, ahol a vásárlók vásárlási preferenciái közel azonosak. A célzott ajánlatok szegmensenként kerülnek kidolgozásra.
  • Content based vagy collaborative filtering eljárások: ide tartoznak például a legközelebbi szomszéd algoritmusok (Nearest Neighborhood), amik nagyon egyszerűen leírva olyan eljárások, ahol egy A vásárló esetében megkeressük azt a B vásárlót, akinek a vásárlási szokása legjobban hasonlít A vásárlóhoz, majd ha B vett valami olyat, amit A nem, akkor A kap erre a termékre egy ajánlatot.
  • Prediktív modellek: a modell kiszámolja, hogy A ügyfél mekkora valószínűséggel vásárol majd X terméket. A kampányok célcsoportját ezen valószínűség alapján lehet létrehozni – „nyilván” azok kerülhetnek be a célcsoportba, akiknél legmagasabb ez a valószínűség.

Előre szeretném leszögezni, hogy keresztértékesítési modellezésben nem vagyok igazán jártas – de mostanában több cikkel is találkoztam, ahol prediktív modelleket használtak a keresztértékesítéshez, viszont egyik cikk se foglalkozott egy olyan kérdéssel, ami engem személy szerint évek óta izgat, ennek egy aspektusát mutattam be a „Létezik-e prediktív modell?” írásomban.

Mielőtt a problémát ismertetném, magát a „prediktív” modell kifejezést szeretném pontosítani.

Prediktív modell kifejezést szokták használni churn vagy csőd előrejelzésnél, illetve fraud vagy spam detektálásnál is. Holott két teljesen eltérő esetről van szól, amit a fenti ábra mutat.

A ténylegesen prediktív modelleknél múltbeli adatok alapján próbálunk előrejelezni egy jövőbeli eseményt. Ilyen esemény lehet, hogy az ügyfél szerződését felmondja vagy egy cég csődbejut. Az általam detektív modellek esetében egy már meglévő objektumot vagy eseményt kell minősíteni adatbányászati modell segítségével. Ez azért szükséges, mert a rendelkezésre álló adatok alapján nem lehet egzakt módon elvégezni ezt a minősítést. Ilyen eset lehet egy biztosítási káreset. Rengeteg adat van egy káresetről, de hogy ez csalás volt vagy sem, arra egy adatbányászati modellt kell építeni, ami a meglévő adatok alapján számolja ki a csalás valószínűségét. Ugyanez a helyzet az emailekre. A beérkező email egy létező objektum, amire nyilván nincs ráírva hogy „spam”, ezt adatbányászati modell tudja eldönteni az email paraméterei alapján.

Azonban van egy közös ismérv a prediktív és detektív modellben: mindig valami „rossz dolgot” jelzünk előre/detektálunk. Mégpedig azért, hogy csökkentsük a "rossz dolgok (események, objektumok) számosságát". Ha detektálunk olyan ügyfélszegmenst, ahol magas a jövőbeli elvándorlók száma, akkor ezeket meg lehet tartani valamilyen ajánlattal. Ha látjuk mely cégek jutnak nagy valószínűséggel csődbe, akkor azoknak a cégeknek nem adnak a bankok hitelt (elkerülve később hitelbedőlést). Ha egy káreseténél magas a csalási valószínűség, akkor a biztosító leállíthatja a kár kifizetését.

 

Amikor x-sell modellt építünk, érdemes két kérdést tisztázni:

  • Pontosan mit is szeretnénk „előrejelezni”?
  • Prediktív vagy detektív modellt építsünk?

 

Amikor adatbányászati modellt építünk, akkor sosem hátrány ha megfogalmazunk hozzá egy üzleti célkitűzést, vagy még jobb, ha van egy üzleti célkitűzés, és arra készítünk adatbányászati modelleket.

Jelen esetben az üzleti célkitűzés elég világos: növeljük egy adott termék értékesítését!

És itt jön sokszor egy téves interpretáció az adatbányász oldalról: modellezük le annak a valószínűségét, hogy valaki vásárol-e az adott termékből a jövőben. Ilyenkor elkészül egy tanító adatbázis múltbeli adatokon, ahol a célváltozó 1-es ha a múltban vásárolt ilyen terméket, 0-ás ha nem vásárolt.

Ekkor az elemző egyszerre két döntést hozott meg: (i) az adott termék vásárlási valószínűségét akarja kiszámolni, (ii) prediktív modellt akar építeni.

De vajon egy ilyen modell mire is használható? Egyrész vegyünk észre, egy érdekes dolgot. Ebben az esetben  kivételesen nem egy „rossz dolgot” jelzünk előre (pl. churn), hanem egy „jó dolgot” (vásárolni fog), ami bizarr szitációt is szülhet. Nézzünk erre egy példát:

A modell alapján 10 decilisbe sorolhatók az ügyfelek, ahol az első decilisben mindenki vásárolni fog az adott termékből (ilyen modell a valóságban nyilván nem létezik – csak az érthetőség kedvéért ilyen magas ez az érték).

Egy ilyen modellre minden adatbányász büszke lehet, de vajon használható bármire is? Ha történetesen ez egy churn modell lenne, akkor nagyon egyszerű a helyzet, mert az első decilisbe tartozó ügyfeleket kell megkeresni megtartási ajánlatokkal, hiszen mindenki el akar onnan menni. Ha csőd modell lenne, akkor nyilván a decilis1-be tartozó cégeknek nem ad a bank hitelt, hisz ezek a cégek mind csődbe jutnak. Ha fraud modell lenne, akkor is főnyeremény egy ilyen modell, hisz a decilis1-be tartozó káresetek mindegyike csalás –nem kell ezekben az esetekben fizetnie a biztosítónak.

De itt azt jeleztük előre, hogy mekkora valószínűséggel fog vásárolni? Az első decilisbe tartozó ügyfelek 100%-a fog vásárolni – ami üdvözlendő, de mihez is kezdjünk velük? Nyilván semmit, hisz ebben a decilisben már nem növelhető az értékesítés.

Akkor decilis2 legyen a célcsoport? Ott olyanok vannak, ahol minden második vásárolni fog. Ez azt jelenti, hogy a decilis2-be eső ügyfelek felénél „felesleges” a megkeresés, hisz megkeresés nélkül is vásárolnak. Viszont lehet, hogy a másik felénél is magas lesz a pozitív válaszadók aránya, akik eredetileg nem vásároltak volna – tehát ezért érdemes mégis őket megkeresni.

Egy másik logika szerint meg a decilis10-be eső ügyfeleket érdemes megkeresni, hisz közülük szinte senki se vásárolna az adott termékből (5%), így a másik 95%-nál csak növelhetünk a vásárlási hajlandóságon. Viszont decilis10 ellen szól, hogy esetükben (a 95%-nál) extra alacsony lehet a „response rate” (a megkeresés ellenére se fognak vásárolni).

A lényeg, hogy a fenti modellről nem tudjuk, hogy tud-e segíteni a keresztértékesítésben vagy sem. Ennek oka, hogy rossz volt a célváltozó és a módszer – egy „jó eseményt jelzünk előre".

Adatbányászati modellt azért fejlesztünk, hogy javítsunk üzleti folyamatok hatékonyságán, márpedig javítani csak a „rossz” dolgokon lehet, a "jó" dolgokon nem!

A fentiek alapján úgy gondolom, hogy a keresztértékesítés növeléséhez nem biztos, hogy a prediktív modellek a legalkalmasabbak. Talán a Spotify x-sell modelljével is ez a baj. Nem tudom. De ha valaki tud egy szuper új jazz albumot, küldje el nekem!

Blog
adatbányászat, collaborative filtering, content based filtering, data mining, keresztértékesítés, kollaboratív filtering, nearest neighbour, spotify, x-sell
Mihez is ért a Data Scientist?
Mennyit keres egy programozó?

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress