Háttér
A Clementine Consulting (a korábbi SPSS) minden évben megrendezi saját szakmai konferenciáját, és nem lesz ez másképp idén sem. A tavaly óta dataStream néven futó sorozaton az Andego Tanácsadó Kft. ügyvezető igazgatója, Kovács Gyula is ad elő. Rövid személyes beharangozója következik.
Kommentár
Ha tavasz, akkor SPSS/Clementine konferencia. Ez az egyik legfontosabb eseménye a hazai adatbányász szakmának, különösen az IQsymposiumok megszűnése óta. Jómagam a kezdetektől (2006) részt veszek az SPSS/Clementine eseményein, és az elmúlt évekhez hasonlóan idén is bekerültem a hivatalos programba.
A "Big Data: a nagy lehetőség vagy nagy testvér" címen meghirdetett konferencia egy igazi "hype" témát próbál meglovagolni. Maga Big Data témáról írtunk tavaly, és úgy gondoljuk a helyzet továbbra sem változott érdemben. Illetve apró változások azért igen.
Az hogy mi a Big Data eleve egy jó kérdés, én két aspektusát emelném ki. Az egyik a felhőben osztott adattárolás, másik az adatok nem strukturáltsága (értsd szövegek, hangok, hálózatok). Legjobb tudomásom szerint az adatok felhőben történő tárolása itthon továbbra sem jellemző, és néhány pozitív példától eltekintve nem igen látni erre fogadókészséget. Ezzel szemben a szöveg és hangbányászat területen valami megmozdult. A hangbányászati megoldásokról és projektekről már évek óta hallani, de úgy tűnik végre szövegbányászat területén is megmozdult valami (erről a konferencián lesznek is előadások).
No de miről is fog szólni az én előadásom, melynek címe "Biztos számít a méret"?
A cím arra utal, hogy vajon igaz-e az az állítás, miszerint több az adatból több információ nyerhető ki? Esetleg a kis adatbázisokat nem is érdemes elemezni?
Az elmúlt években volt szerencsém számos olyan hazai céggel dolgozni, ahol az ügyfél szám 100.000 és 500.000 közé esett, az adatok teljes mértékben strukturáltak voltak és a táblák nem is voltak igazán "szélesek" (az oszlopok száma sem volt nagyobb százas nagyságrendnél). Ezek az adatbázisok már egy átlagos PC-n jól elemezhetők, a kérdés csak az, hogy bármilyen érdekes eredmény kinyerhető belőlük? Nos a tapasztalataim azt mutatják, hogy ezek a kis adatbázisok igen értékesek lehetnek. Néhány ok:
1. Már eleve az, hogy nem termékszintű elemzések, hanem ügyfélszintű elemzéseket készítünk, rengeteg új információt ad a Megrendelőnek!
2. A 100.000-es (esetleg milliós) rekordszámú adatbázisok már elég nagyok ahhoz, hogy hagyományos elemző eszközökkel ne tudják elemezni (pl. Excel-el!), így sokszor teljesen mindegy milyen eredmények jönnek ki az adatbányászati elemzésekből, az biztosan újdonság lesz a Megrendelőnek.
3. Az adatbányászati elemzések fajlagos költsége folyamatosan csökken. Egyrészt vannak "ingyenes" open source eszközök (nincs szükség nagy szoftver beruházásra), másrészt egyre képzettebbek az adatbányászok, akik egységnyi idő alatt egyre több és több elemzést képesek elkészíteni. Ennek köszönhetően nőtt az adatbányászati elemzések megtérülési mutatója.
Az előadásomban néhány érdekes esettanulmányt fogok ismertetni, melyek viszonylag kis adatbázisokon készültek, de mégis a Megrendelők számára meglepő eredményeket hoztak!