Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Pí és a Prímek üzenete

Pí és a Prímek üzenete

2013. május 27. hétfő Bejegyezte Kovács Gyula

Háttér

Nemrég láttam egyik kedvenc rendezőm,  Darren Aronofsky, egyik korai filmjét Pi címmel, illetve ugyancsak egy friss élmény Marcus du Sautoy matematikussal készített index interjú. Talán nem meglepő módon mindkét esetben néhány adatbányászattal kapcsolatos kérdés jutott eszembe.

Kommentár

1. A film üzenete

Darren Aronofsky korunk egyik legérdekesebb rendezője. A Fekete hattyú filmje tavaly Oscar díjakat is besöpört, de nekem talán még jobban tetszett Mickey Rourke "comeback"-je, a Pankrátor. Egészen véletlenül akadtam egy korai filmjére, a Pi-re, de az elképesztően alacsony költségvetésű film ízig-vérig magán hordozza Aronofsky kézjegyét. Na de nem filmkritikát akarok írni, inkább egy érdekes kapcsolódási pontot a film története és az adatbányászati elemzések között. A történet röviden:

"A matematikus zseni Max Cohen egy új felfedezés küszöbén és az őrület határán áll. Körülöttünk minden rendszerekből áll össze, és Max az egyik legnagyobbat akarja megfejteni: a tőzsde rendszerezett káoszát. Egy hatalmas számítógép, az Euclid segítségével megpróbál rendszert találni a másodpercenként gazdát cserélő részvények forgalmában. Miután Max a számítógépbe táplálja a héber ábécét, az Euclid kiad egy kétszáztizenhat számjegyű összeget. Ez a számsor a Tóra szerint Isten neve lehet. Maxot eközben folyamatosan üldözi egy cég, amely bármit megtenne, hogy megszerezze a kapott eredményt. Ez az elviselhetetlen helyzet és állandó migrénjei, élet és halál közé sodorják a matematikust." (forrás port.hu)

Nos a film ott kezd érdekes lenni, ahol az ismertető befejeződik. A főhős teljes meggyőződéssel hiszi, hogy Pi-t leíró számsor valamilyen üzenetet kódol, amit majd Ő fog tudni megfejteni. Nos ez a csökönyös hit valamire nagyon emlékeztetett. Mégpedig kezdő adatbányász éveimre.

A kezdő adatbányász egyik legfontosabb ismérve, hogy sohasem nyugszik bele egy adott modell pontosságába. Folyamatosan próbálkozik jobb és jobb modellt elérni, amire egyébként számos eszköze van. Ezek közül néhány:

- Adatbázis transzformációk: (i) Új változók generálása meglévő változók alapján (pl. két változó hányadosa), (ii) Egy numerikus változót kategorizál, (iii) Numerikus változót normalizál, (iv) súlyozza az adatbázist a célváltozó függvényében, stb.

- DM algoritmusok eltérő paraméterezése, illetve DM algoritmusok kombinálása

Sok kezdő adatbányász, hasonlóan a filmbeli matematikushoz, megszállottan hiszi, hogy a sok munkának meglesz az eredménye, és talál majd olyan adatmintát, mely drasztikusan javítja a legelső modellek teljesítményét. Nos a valóság a legtöbb esetben ennél jóval szürkébb. Nincsenek titkok - azaz az adatokban (legtöbbször) nincsenek"titkos minták", és ha lehet is javítani a modelleken, ezek kis mértékűek, így sok esetben az az energia ami az eredmények javítására fordítódik, egyszerűen üzletileg nem térül meg.

2. Az interjú üzenete

Az elmúlt hetekben  több, nagyon érdekes interjú is készült Marcus du Sautoy matematikussal. Azt hiszem ez az intenzív média jelenlét egy ősszel megjelenő könyvének szól, azaz ezek az interjúk alapvetően promóciós célból készültek, de ez semmit sem von le az interjúk élvezeti értékéből. A beszélgetés nagy része a prímekről szól, ami tényleg egy baromi érdekes része a matematikának.  Azonban nekem a következő mondatairól jutott eszembe az adatbányászat:

"(Kérdés: hogyan szerettessük meg a tudományt a gyerekekkel). ... Szerintem az a lényeg, hogy megmutassuk nekik a nagy sztorikat. A nagyon izgalmas sztorikat. Nem a technikai dolgokat, azok ráérnek később. Az egész olyan, mint megtanulni egy hangszeren: akkor fogsz megtanulni, ha hallod, milyen rajta játszani. Valakinek megmutatsz egy zeneművet, ami lenyűgözi. Ezután tanulod meg az unalmas részeket, rendesen használni a hangszert. A tudományban gyakran csak az unalmas részekkel foglalkozunk, elfelejtjük a nagy dolgokat."

Nos az adatbányászat valami hasonló dolog. Ha valaki igazán jó adatbányász, akkor bizony nagyon sok unalmas dolgot is kell csinálnia. Adatminőséget ellenőrizni, alapeloszlásokat készíteni, tanító adatbázist összeállítani, az adatfeldolgozási algoritmusokat tesztelni, stb.

DE! Egy jó adatbányászt ez azért nem zavar, mert tudja, hogy egy jól felépített elemzési sorozatból "nagy sztorit" lehet kihozni. Sajnos sok kezdő adatbányász lelkesedése előbb elfogy, mint hogy meglássa a "nagy sztorit". Ennek több oka is lehet:

- adatlabirintus effektus: az elemző egyszerűen elveszik az adatok tengerében, fogalma sincs, hogy melyik változó miért van, hogyan számolta ki,  stb. Az így kapott adatbázisok a legtöbb esetben teljesen használhatatlanok, és nem is jön ki semmilyen látványos eredmény (vagy ha kijön, az biztosan valami óriási "számolási hiba")

- nulla gondolkodás effektus: az elemző vakon követi a vezető útmutatásait, nem gondolkodik, csak az adatokat trancsírozza éjt nappallá téve. Nyilván egy ilyen munka végén, az elemzőt már nem nagyon érdekli semmi.

Amennyiben az elemzés minden fázisában szem előtt tartjuk, hogy miért is csináljuk az egészet ("mi is a nagy sztori"), akkor a fenti csapdák kiküszöbölhetők.

Ha most a két fejezetet összevetjük, akkor látszólag talán ellentmondásba is keveredtem. Egyrészt ne higgyünk a "csodákban" (titkos mintákban), de higgyünk a "nagy sztorikban". De igazából itt szó sincs semmilyen ellentmondásról. A nagy sztorik ugyanis nem csodákból épülnek fel, hanem apró, de kicsit unalmas lépésekből.

Blog
adatbányászat, Aronofsky, pi, prím, Sautoy
Kis pénz kis foci, nagy pénz nagy foci?
Clementine diploma kupa margójára

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress