Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Futball Vb margójára

Futball Vb margójára

2018. július 24. kedd Bejegyezte hadhazi

A világ egyik legnagyobb befektetési és pénzügyi tanácsadó cége a Goldman Sachs szakértői adatbányászati  módszerekkel próbálták előrejelezni a 2018-as futball-vb eredményeit. Az előrejelzésnél minden elérhető adat rendelkezésre állt a csapatokról és a játékosokról, és ezeken a napjainkban olyannyira népszerű mesterséges intelligenciát alkalmazták az eredmények megtippeléséhez, mégis az előrejelzés kudarcot vallott, a gép által tippelt eredmények és a valóság között szakadéknyi távolság volt. Cikkünkben az elemzés egyik tanulságát emeljük ki.

Amikor adatbányászati elemzést tűzünk ki magunk elé, akkor létezik egy olyan kérdés, amit mindenképpen fel kell tennünk magunknak: „A vizsgált esemény előrejelezhető vagy nem?”

És itt máris egy csapdahelyzetbe kerültünk. Mert mit is jelent az, hogy előrejelezhető? Maradjunk a futball példájánál! Az előrejelezhető azt jelenti, hogy …

  • … mindig 100% pontossággal megmondja az algoritmus hogy mi lesz a mérkőzés eredménye, vagy
  • … a véletlen tipphez képest többször találja el az jó eredményt az algoritmus, vagy
  • … azt nem várjuk el, hogy 100%-os pontossággal jelezze előre az eredményt, de ne is a véletlen előrejelzéssel vessük össze az eredményt, inkább ún. szakértői becslésekkel (pl. futball szakértő tippjeivel), hisz egy Barcelona-Ferencváros esetén a véletlen tipphez képest (azaz 1/3-1/3-1/3 esélye a győzelemnek/döntetlennek/vereségnek) nyilván bármilyen egyszerű algoritmus is pontosabban jelez előre (értsd a Barcelona győzni fog).

tipp4 A gyakorlatban akkor mondjuk, hogy egy modell használható, ha a szakértői becslésnél pontosabb (sőt általában jóval pontosabb). Itt azonban máris felmerül a következő kérdés: mennyire pontosan jelez előre a szakértő? Érdekes módon erre nem is olyan egyszerű a válasz. Egyrészt a szakértők nem robotok, azaz sok esetben szubjektív elemek alapján hozzák meg a döntéseiket, így nem lehet leprogramozni a szakértő döntési fáját, ami objektíven összehasonlítható a gépi algoritmussal.

Másrészt vannak olyan szituációk, amikor a probléma jellege olyan, hogy nem mérhető objektív mérőszámokkal a szakértő hatékonysága. Ilyen eset tipikusan a biztosítói kárszakértő munka, pontosabban munkájának az a része, hogy kiszűrje a csalás gyanús eseteket. Annak ellenére, hogy a szakértők a csalók szinte minden trükkjét ismerik, szinte lehetetlen az összes csalás kiszűrése (a biztosítók a károk 0.5-1%-át azonosítják be, mint csalás, holott iparági becslések szerint ez a szám elérheti a 15-25%-ot is!). Azaz nincs  objektív mérőszám, hogy mennyire pontosan jelzi a csalásokat a szakértő, így igen nehéz visszamérni a csalást jelző algoritmusok teljesítményét is!

Ne de mi történt a Goldman Sachs futball előrejelző algoritmusa esetében? (itt természetesen vegyük figyelembe, hogy ez valahol csak játék volt). Csak emlékeztetőül: a kérdés az, hogy a vizsgált esemény előrejelezhető vagy nem? Máris egy újabb kérdés: mi is a vizsgált esemény?

  1. A futball-vb összes mérkőzés eredményeinek előrejelzése?
  2. A VB végső sorrendjének előrejlezése? (1, 2, 3 és 4.-ik helyezett)?

Látszólag mind a kettő kérdés szakmailag korrekt, valójában az egyik teljesen szakszerűtlen, méghozzá éppen a második kérdés. Ennek megértéséhez tisztázzuk is, hogy mit jelent a prediktív modellezés? A prediktív modellek általában nagy számosságban előforduló események várható kimenetét jelzik előre. És itt a hangsúly a nagy számosság. Vegyünk néhány egyszerű példát:

  • ajánló rendszer: egy jól működő web áruház esetében naponta több millió ajánlatot kell kiszámolnia a modellnek
  • churn előrejelző rendszer: bankok vagy telekommunikációs cégek esetében is több millió vagy legalábbis több 100.000 előrejelzést kell kiszámolnia a modellnek (havonta, de akár naponta is!)
  • selejt előrejelzés: gyártó cégeknél is a modell folyamatosan készíti az előrejelzéseket, amelyek számosság ugyancsak elérheti a több milliót.

A nagy számosság kulcsfontosságú tehát, mivel senki nem várja el ezektől a modellektől, hogy egy konkrét esetben döntsön jól, ezzel szemben az elvárható, hogy az esetek többségében döntsön jól (vagy jobban, mint a szakértői becslés!). Nos a Goldman Sachs szakértők biztosan tisztában voltak azzal, hogy egy VB végeredményének előrejelzése ilyen értelemben teljesen szakmaiatlan. Hisz jelen esetben egyetlen egy eseményről beszélünk, és a modellnek erre az egy eseményre kell választ adnia. Ez olyan, mintha egy bank arra kérne fel elemzőt, hogy konkrétan XY ügyfélre mondja meg, hogy el akar-e menni vagy sem. Egy esemény esetében az összes modell alig ér többet, mint egy tipp. Azaz a „Mi lesz a VB végső sorrendje” kérdés megválaszolása játéknak jó, de teljesen szakszerűtlen. (Csak érdekességként zárójelben: a cikkben elhangzott, hogy az előző VB-n is készítettek előrejelzést, ami pontosabb volt a 2018-asnál, pedig kevesebb adatból dolgozott. Itt nyilvánvalóan teljesen félrevezető ez a mondat, hisz a mind a 2014-es mind a 2018-as futball-vb előrejelzése nem tekinthető valódi modellezésnek, így ezek összehasonlítása nem több, mint egyszerű játék!).

A másik kérdés esetében nem ennyire egyértelmű a helyzet (Mi lesz a Vb mérkőzéseinek eredménye). Egy VB-n 64 mérkőzés van, ami nyilvánvalóan nem nagy számosság, de érdekes lehet összevetni a modell előrejelzésének pontosságát a …. mivel is? Korábban írtuk, hogy a modelltől azt várjuk el, hogy pontosabb legyen a szakértői becslésnél. Akkor tehát nézzük meg itt is a szakértői becsléseket. Látszólag nincs ilyen, de valójában van, méghozzá talán a legjobb szakértői becslés: az emberek többségi döntése. Aki egy kicsit is foglalkozik sportokkal, az nagyon jól tudja hogy rengeteg sportfogadási oldal van, ahol minden mérkőzés esetében gyakorlatilag a sportfogadási oldal is tesz egy előrejelzést az odds-szok nagysága formájába. Minél többet fizet egy eredményre, annál kisebb az adott eredmény valószínűsége, és minél kevesebbet, annál nagyobb a valószínűsége. Az odds-okat azonban részben a fogadók alakítják ki. A rendszer nézi, hogy milyen eredményre fogadnak a játékosok (azaz hogy a „futball szakértők” milyen eredményt várnak), és ez alapján alakulnak az oddsok (ha egy csapat győzelmére sokan fogadnak, akkor értelemszerűen csökken az odds erre az eredményre). Ez alapján a Goldman Sachs szakértőknek van lehetőségük kiértékelni a modelljüket, a sportfogadási tippeket és a modell által adott előrejelzéseket kell összevetni a tényleges eredményekkel, a modell akkor tekinthető jónak, ha pontosabb, mint a sportfogadási tipp (többségi szakértői vélemény).

Összegezve.

Amikor adatbányászati elemzéseket készítünk, fel kell mérnünk a realitásokat. Gyakori hiba, hogy olyan célokat tűzünk ki, ami teljesíthetetlenek, és így a projekt sikere (pontosabban sikertelensége) eleve borítékolható. Fontos tehát elérhető célok kitűzése, és az üzleti életben ezek megfelelő kommunikálása a megrendelői oldal felé.

Blog
adatbányászat, fogadási irodák, futball Vb 2018, prediktív modellezés, tippmix
Amikor a mintavételezés a probléma
Felvásárolt minket a Clementine

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress