Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Ki nyer ma?

Ki nyer ma?

2012. december 23. vasárnap Bejegyezte Kovács Gyula

HÁTTÉR

2012 július 31-én indul egy új rendezvénysorozat DM Open címmel (sorozat párhuzamosan fog futni a DW Open és a BI Open sorozatokkal). A "Sport és adatbányászat" témában meghirdetett nyitó rendezvényen az Andego is képviseli magát egy előadással.

DM Open

KOMMENTÁR

Mindenekelőtt egy személyes vallomással kell kezdenem az írást. Amióta az eszemet tudom nagy rajongója vagyok a sportnak és nagy rajongója vagyok a számoknak is. Így nem csoda, hogy a sport témájú elemzéseknek és statisztikáknak mindig is különös figyelmet szenteltem. Azonban úgy tűnik ezzel nem vagyok teljesen egyedül, mivel a bárki által elérhető sportstatisztikai oldalak népszerűsége napról napra nő (meg persze a sportfogadási oldalaké is, de ez egy másik téma)

Az utóbbi időben egyre jobb minőségű sportelemzések érhetők el az Interneten, és ha tehetem, akkor ezeket elolvasom. Múlt héten például a  Vasárnapi Hírekben  találtam egy olimpiai előzetest, benne három grafikonnal.  Én most adatbányász szemmel osztom meg gondolataimat ezekkel kapcsolatban.

IDŐSOR ELEMZÉS

Az első grafikon az elmúlt 100 év magyar éremtermését mutatta be nagyon szép oszlop diagram formájában. A sportban jártas olvasók számára sok újdonságot nem mutat,  talán annyit mégis érdemes megjegyezni ezzel kapcsolatban, hogy a magyar sport lejtmenete a közhiedelemmel ellentétben nem az elmúlt 8-10 évben kezdődött el, hanem meglepő módon a Helsinki olimpia (1952) után. 1952 óta egy folyamatosan csökken az érmek száma,kisebb-nagyobb kilengésekkel. Helsinki után volt 2 olimpia, amikor alaposan a trendvonal alatt teljesítettünk, de ez jól magyarázható az 56-os  migrációs hullámmal (nagyon sok sportoló maradt külföldön). Kellett körülbelül 8 év, mire a kiesett generációt sikerült pótolnia az országnak.

PREDIKTÍV MODELLEZÉS

A második grafikon sportáganként összegzi, hogy eddig mennyi érmet hoztak az olimpiákról. Na de amiért egyáltalán tollat ragadtam, az az utolsó grafikon.

Ezen a grafikonon az olimpia minden napjához hozzá van rendelve egy valószínűség, méghozzá annak a valószínűsége, hogy vajon nyerünk-e aranyat az adott napon.  Miért is volt érdekes ez számomra? Azért, mert valami hasonlóval szinte nap mint nap találkozom. Vegyük észre, hogy a példánk valójában egy prediktív modellről szól, ahol a modell megtippeli minden egyes napra az aranyéremszerzés esélyét (a napokat ez alapján sorba is rendezhetjük - ahol előre vesszük azokat a napokat, amelyeken a legnagyobb eséllyel fogunk aranyérmet szerezni).

Mintha ez ismerős lenne egy adatbányász számára? Igen, bizony ez a fajta elemzés és sorba rendezés nagyon hasonlít azon score-okra amiket az adatbányászok számolnak ki nap mint nap. Csak mi ezeket a score-okat általában ügyfelekre számoljuk - lásd  churn vagy x-sell modellek!

Na de miért is számolunk score-okat ügyfél szinten? Többek közt azért, hogy a szűkös erőforrásainkat optimalizálhassuk! Ha csak 200 ügyfél megkeresésére van lehetőségünk havonta, akkor az adatbányászati elemzés segít annak eldöntésében, hogy ki legyen az a 200 ügyfél ( a 200 legmagasabb score értékkel bíró ügyfél).

Térjünk vissza cikkhez! Tegyük fel, hogy most kell megterveznünk a nyarunkat. A napok szétosztása után kiderült, hogy összesen csak 3 napot tudunk az olimpiára rászánni! Hála a jóégnek itt van ez a grafikon, ami alapján tudjuk, hogy melyik az a három nap, amikor legnagyobb eséllyel fogunk aranyat látni. Hasonlóan az üzleti példához tehát, (1) szűkösek az erőforrásaink, (2) optimalizálnunk kell, (3) és ebben a score-ok nyújtanak segítséget.

ZÁRÓSZÓ (helyett)

A fenti gondolatok néhány egyszerű grafikon alapján születtek, de természetesen az igazi  sport témájú elemzések ennél lényegesen több izgalmat rejtenek. Így mindenkit bátran biztatok arra, hogy menjen el a DM Openre!

Blog
adatbányászat, dm open, infografika, olimpia, sport
Miért nem szeretem a BI-t?
Adatbányászati helyzetkép 2012

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress