HÁTTÉR
Egy érdekes kísérletet indított el a BigML nevű fejlesztői csapat. A magukat szerényen "A világ első prediktív modellező piacterének" nevező társaság bárki számára lehetővé teszi, hogy az általa kifejlesztett modellt publikálja, sőt ha erre igényt tart, akkor pénzt is kérhet érte.
KOMMENTÁR
A közelmúltban több konferencián is részt vettem, ahol az ember óhatatlanul is összefut barátaival, szakmabeli kollégákkal és persze a konkurenciával. Ezeken a beszélgetéseken az egyik leggyakoribb téma, hogy a válság mennyire érinti a BI/adatbányászati szektort? Eléggé egységes az álláspont abban, hogy a válság inkább csak meglegyintette a BI szakmát, de komolyabb kárt nem okozott.
De azért mindenki egy kicsit óvatos, és új kitörési pontokat keres a hagyományos konzultáció mellett. Egy ilyen kitörési pont különböző szolgáltatások fejlesztése, melyért fix díj kérhető nagy cégektől. Egy másik kitörési pont szemináriumok, konferenciák szervezése (ilyen többek közt az Andego által indított Adatbányászati Akadémia is!).
A BigML által kifejlesztett online rendszer azonban egy harmadik utat mutat. Mi is a rendszer lényege?
- Vannak modell tulajdonosok és modell használók!
- Bárki lehet modell tulajdonos. Ehhez fel kell töltenie adatokat az online rendszerbe, majd egy ún. Data Set-et kell létrehoznia, mely már alkalmas prediktív modellezésre. A felhasználó a kapott adatbázison készíthet különböző prediktív modelleket (amik ha jól láttam minden esetben döntési fák), majd a kapott prediktív modellt futtathatja új adatokon. (a demo-ban csak egyesével és kézzel lehetett a prediktív modellt futtatni, nem világos, hogy nagyobb méretű adatbázison is lehet-e futtatni a modelleket). Fontos megjegyezni, hogy a modellt (döntési fát) csak korlátosan lehet kiértékelni, pl. a rendszer nem írja ki a leveleken a célváltozó eloszlását.
- A modell tulajdonos ezután eldöntheti hogy a modellt "White Box" vagy "Black Box" módon teszi publikussá. Az előbbi esetben más is nézegetheti a modellt, míg utóbbi esetben csak a saját adatain futtathatja a prediktív modellt.
- És a lényeg: a felhasználó másoktól pénzt kérhet modelljei használatáért.
Természetesen számos kérdés felmerül az emberben a fenti konstrukcióval kapcsolatban.
1. Adatvédelem.
A rendszerbe feltöltött adatokat más nem láthatja, csak a változók eloszlásait. Ez rendben is van. De egyáltalán hogyan töltheti fel egy cég a saját adatait? Egy bank vagy mobil szolgáltató nem adhatja ki az adatait még akkor sem, ha ezek nem tartalmaznak személyes adatokat.
2. Modellezés.
Ha valaki feltölti az adatokat, akkor utána modellezhet, de ez egyben a változók kijelölésével gyakorlatilag kimerül. A tapasztalt adatbányászok tudják, hogy az adatbányászat ennél lényegesen összetettebb feladat. A rendszer nem támogat semmilyen iteratív folyamatot (adattisztítás-adatfeldolgozás-modellezés-kiértékelés-adattisztítás ...). Igazából az se deríthető ki, hogy a modellt milyen algoritmus számolja ki.
3. Modell használata
Az persze csábítóan hangzik, hogy ha egy ügyfelemről szeretném eldönteni, hogy mennyire kockázatos, akkor csak fel kell menne erre az oldalra, fizetek mondjuk 5$-t, ezután megadom az ügyfél adatait, és máris megkapom jó vagy rossz ügyfél. Na de mi a garancia arra, hogy egy olyan modell, amely más cégnél jól működik, az nálam is jól fog működni? De ha még jól is működne, egy ennyire nyílt rendszer az adatbányászati modellek minden előnyét kiiktatná.
a.) Versenyelőnyünk nem lenne innentől kezdve, hiszen a konkurencia is tudja használni ugyanazt a modellt
b.) A rossz szándékú ügyfelek is előnyösebb helyzetbe kerülhetnek, hiszen saját maguk kideríthetik, hogyan tudnak "jó ügyfelek" lenni!
KONKLÚZIÓ
A BigML rendszer ötlete minden hibája ellenére azonban mégis tetszik. Maga a demó példa is egy olyan esetet vesz, ami indokolttá tehet egy ilyen rendszer működtetését (egy borkereskedő hogyan árazza az új borokat). És különösen tetszik akkor, ha nem mint üzleti vállalkozásra tekintünk, hanem egy nyílt tudásmegosztó portálra. A kisvállalkozások számára egy ilyen szolgáltatás mindenképpen hasznos lehet.