HÁTTÉR
Az SPSS Magyarország szinte tradicionálisnak számító év végi zárópartiját tartotta a Corvin moziban. Az est fő programja a Brad Pitt által jegyzett Pénzcsináló (Moneyball) című film közös megtekintése volt. A film lényegében arról szólt, hogy az adatbányászat hogyan alakította át a professzionális sportot, ezen belül is a baseball-t.
KOMMENTÁR
Ha valaki véletlenül a Google-n keresztül jutott erre az oldalra, és a filmről szeretne olvasni, azoknak javaslom, hogy ne hajtsanak tovább! Ez a bejegyzés az adatbányászoknak szól, és a film utáni beszélgetések főbb gondolatait szeretném összefoglalni.
Mert miről is szólt a film? Egy Billy Beane nevű sportvezető nem nyugodott bele abba, hogy az általa irányított Oakland Athletics baseball csapat azért nem tudja sohasem megnyerni a bajnoki címet, mert a többi csapathoz képest lényegesen kisebb büdzsével kell gazdálkodnia (ez a kisebb összeg mai értéken számolva kb. 10Mrd forintnak felel meg!). Egy véletlen összehozta egy közgazdász-matematikussal, aki lényegében adatbányászati módszerekkel értékelte ki a liga az összes játékosát. A módszernek köszönhetően egy látszólag "lúzer" csapatot állított össze Billy Beane és a matematikus (Peter Brand) az új szezonra, és bár óriási volt az ellenállás az edző és a stábja részéről, fokozatosan egyre jobb lett a csapat. A ligát végül nem sikerült megnyerniük, de egy 20 meccsből álló győztes sorozattal beírták magukat a történelem könyvekbe. A film egyébként nagyon jó, bárkinek jó szívvel ajánlom, de nem erről akarok most írni.
A történet nagyon szép, de egy kicsit sántít benne valami. Ja majd elfelejtettem az évszámot: 2001-2002-ben vagyunk. Én akkor már 4.-ik éve foglalkoztam adatbányászattal, több sikeres projekten voltam túl, ergo már itthon sem számított igazán újdonságnak az adatbányászat. Kizárt, hogy az amerikai profi sportokban addigra ne használtak volna adatbányászati elemzéseket (volt rengeteg adat+adatbányászati szoftverek). Akkor miben volt különleges az Oakland?
Mielőtt válaszolnék erre, nézzük meg hogy hogyan is használhatja egy cég az adatbányászati elemzéseket. A viszonylag elterjedt verzió az, hogy az adatbányász kiszolgálja üzleti igényeket. Vagy máshogyan fogalmazva: ha valakinek van egy hipotézise, akkor az adatelemzés feladata ezen hipotézis megerősítése vagy cáfolása. Azonban létezik egy jóval intenzívebb alkalmazása is az adatbányászatnak. Mégpedig az az eset, amikor maga az adatelemzés állít fel hipotéziseket, az üzleti folyamatokat pedig ezen hipotézisek alapján tervezik meg. "Data Driven Marketing" és hasonló kifejezések pont ezt a jelenséget írják le: "szakítsunk a hagyományos szemlélettel, és bízzuk magunkat az adatokra".
Nos a film éppen ezt az intenzív alkalmazását mutatta az adatbányászatnak. . Biztos vagyok abban, hogy 2001 körül minden csapat elemezte az adatokat, de mindig csak egy kérdésre keresték a választ:
"Van 3 játékos próbajátékon, a teszteredmények alapján mit mond az adatbányászati elemzés? Melyik játékos a legjobb?"
Az hogy ki legyen a 3 játékos a teszten, azt a szakmai stáb döntötte el több évtizedes sporttapasztalatuk alapján. Az Oaklandben azonban valami nagyon bátor dolog történt. Billy Beane szakított a hagyományos szemléletmóddal, és vakon megbízott egy adatelemző véleményében. Pusztán a számjegyek döntöttek tehát arról, hogy ki lesz a csapatban és ki nem. Sőt az elemzések döntötték el, ki milyen poszton fog szerepelni, és így tovább.
Vajon itthon vannak Billy Beane-ek? Én úgy gondolom, hogy Magyarország nem USA. Itthon nincsenek Billy Beanek, vagy legalábbis nagyon kevesen vannak. Az elmúlt 15 évben volt szerencsém látni több cég üzleti folyamatát, és erős túlzás lenne azt állítani, hogy az adatelemzés szerepe lényegesen nőtt volna. Sőt. A kezdeti lelkesedés után betagozódott a cégek hierarchiájába, de az üzlet menet továbbra is tradicionális elvek mentén halad (igaz a BI és az egyre fejlettebb IT architektúráknak köszönhetően az elemzések/riportok a mindennapok részévé váltak) .
Napjainkban egy bank vezérigazgatójának fogalma sincs arról, hogy a cég adatbányászai mit is csinálnak (talán még azt sem tudja vannak adatbányászok). A felső vezetők hasonló elvek alapján döntenek, mint 10 vagy 20 éve, az adatbányászok feladata pedig továbbra is a feltett kérdések megválaszolása.
És ez baj? Én úgy gondolom hogy egyáltalán nem. A film azért is tetszett mert nagyon őszinte volt. A főhős maga is tele volt kételyekkel, hogy vajon az új módszertan tényleg működni fog-e? És igaza volt. Az adatokból sok minden kinyerhető, ami értékes, de sok minden nem. Éppen ezért nagyon fontos meghatároznunk azokat a határokat, ameddig egy adatbányászati elemzés határozhatja meg az irányokat, illetve azokat a határokat, ahonnan már nem.