HÁTTÉR
Az Index.hu összeállította 2011 10 legnépszerűbb tudományos cikkeinek listáját. Az első 10 között 3 olyan cikk is található, ami kapcsolatba hozható az adatbányászattal.
Forrás: http://index.hu/tudomany/2012/01/01/onok_szornyekre_es_ufokra_kattintanak/
KOMMENTÁR
10.-ik helyezett: Mutasd a desktopod, megmondom, ki vagy!
A cikkben egy nagy mintás (700.000 válaszadó) kutatás eredményeiből szemezget. A kutatás célja egy olyan "modell" elkészítése, mely megmondja bárkinek a személyiség jeleit pusztán az alapján, hogy a desktop-ja hogyan néz ki. A kutatás során a válaszadók megadhatták a desktopjuk "külső jegyeit", illetve saját maguk demográfiai és személyiség jegyeit. Ez alapján már "csak" irányított modelleket kellett készíteniük, ahol az input változók a desktop kinézetével kapcsolatos változók lehettek, míg az output változók a válaszadók "tulajdonságai". Így jöhetett ki pl. ilyen szabály:
"A férfiak 13 százalékkal nagyobb valószínűséggel tartanak rendet a képernyőn, mint a nők."
Most így hirtelen nem ugrik be, hogy mire is lehet használni ezeket az eredményeket, esetleg arra, hogy az így elkészült cikk garantáltan olvasott lesz (az Index-en ez be is jött).
8.-ik helyezett: Így tud ölni a tömeg
Igazából nem is az fenti cikk az érdekes, hanem egy ehhez köthető index videó. Ebben Farkas Illés, az ELTE kutatója mutat be érdekes kutatási eredményeket arról, hogyan készíthetők szimulációs modellek nagy tömegek mozgásának előrejelzésére, amikor a tömeg pánikba esik. Egy ilyen érdekes eredmény, hogy nyugodt mozgás mellett sokkal gyorsabban ki lehetne jutni egy zárt teremből, mint amikor mindenki pánikszerűen szeretne kirohanni.
Na de mi is ebben az adatbányászat? Jómagam nem vagyok ennek a területnek a szakértője, de néhány éve volt alkalmam ilyen projektekben részt venni, és egy létező adatbányászati feladat volt, hogy a szimulációk futtatásához szükséges függvények paraméterezései közül válasszuk ki azokat, melyek a "legpontosabb" előrejelzést fogják adni. A tapasztalatok azt mutatták, hogy nagyon egyszerű függvények optimális paraméterezésével rendkívül bonyolult események is jól előrejelezhetők. Így számolható ki pl. az ügyfelek várható élettartama is - ami az ügyfélérték számításnál egy nagyon fontos kompozíciós tag.
4.-ik helyezett: Matematikusok fosztottak ki egy amerikai lottót
A sztorit nem ismertetem részletesen, akit érdekel az úgyis elolvassa az eredeti cikket. A lényeg azért röviden: a halmozott nyeremény olyan nagyságot ért el, amikor az összes játékosnak már több esélye volt nyerni, mint veszíteni. Ezt vették észre MIT matematikusok, és növelték meg a nyerési esélyeiket úgy hogy rengeteg szelvényt vásároltak. Volt kockázatuk, de az eredeti nyerési esélynek megfelelően mégis Ők nyertek.
(Hogy őszinte legyek, ezen utóbbi cikknek alig van köze az adatbányászathoz, sokkal inkább a matematikai statisztikához, de ha elfogadjuk azt, hogy az adatbányászat egy gyűjtő fogalom, aminek a része maga a matematikai statisztika is, akkor mégiscsak összekapcsolható a cikk és az adatbányászat.)
Nagy tanulságokat nem akarok levonni, egyetlen dolgot mégis kiemelnék. A listába a cikkek nem tudományos értékük miatt lettek beválogatva, hanem olvasottságuk alapján. Ezek szerint az adatelemzésekkel kapcsolatos színes hírek népszerűek az Index olvasói körében. És ez az, ami miatt sokan az adatbányászatot választottuk.
Az adatbányászat egy univerzális módszertan, ami adaptálható bármilyen adatbázisra. Egy adatbányász egyik projektben email spam-eket szűrhet ki, a másik projektben banki csalásokat detektálhat, míg a harmadik projektben selejteket jelezhet előre a gyártási folyamatokban - úgy hogy közben mindhárom projektben gyakorlatilag ugyanazt csinálja. Na ez a sokszínűség teszi annyira népszerűvé az adatbányászatot mind az adatbányászok mind a felhasználók körében - és úgy tűnik a tudományos cikkek olvasói körében is. Azért egy dologra mindenképpen figyeljünk: próbáljunk olyan elemzéseket készíteni, amik egy cég életében nem a "bulvár rovatba" kerülnek, hanem az "üzleti rovatba" (azaz ne csak érdekesek legyenek az elemzések, hanem használhatók is!)