Napjaink egyik legfontosabb témája a környezetvédelem, nap mint nap érkeznek sokkoló képek szeméthegyekről, tönkretett tájakról. Hulladékkezelés és feldolgozás nélkül talán már bele is fulladtunk volna ezekbe a szeméttengerekbe. Na de miért is jutott ez eszembe egy adatbányászat blog írása közben?
Nos az adatokkal se állunk jobban: percről percre keletkeznek TB-nyi új adatok, úgy hogy ezen adatok egy (jelentős) része nem „elemezhető”, azaz folyamatosan keletkezik az „adathulladék” is. Az írás röviden bemutat egy eljárást az „adathulladék” csökkentésére.
Kezdjük az alapoknál. Az adatbázisokban alapvetően két adattípussal találkozhatunk: (i) numerikus adatok, és (ii) szöveges adatok. Most koncentráljunk ez utóbbira! Az alábbi táblázatban csoportosítottam a szöveges adatokat ezek hossza és a lehetséges változóérték eloszlása alapján.
Jellemzők | Kategória változók | Személyes és elérhetőségi adatok | Szövegek |
Példa | Lakóhely típusa, nem („férfi”/”nő”), milyen számla csomagja van, … | Név, lakcím, telefonszám, … | Email szövege, hanganyag leiratozott szövege, blog bejegyzés, … |
Változóértékek száma | jellemzően 2-10 között (de semmiképp se 100-as vagy nagyobb nagyságrend) | Több száz vagy ezer (vagy még több) különböző értéket vehet fel. Általában a leggyakoribb érték előfordulása sem jelentős | Gyakorlatilag nincs ismétlődés, azaz a változó értékek mind különböznek egymástól. |
Szövegek hossza | Rövid (gyakran csak néhány karakter, és ezek is kódolhatók) | Néhány szóból áll | Összefüggő szöveg, ami több mondatból is állhat. |
Sokáig kizárólag a kategória változók jöhettek szóba az adatelemzéseknél, a másik két adattípusra mint „adathulladék” tekintettünk (mivel nem volt eszközünk ezek feldolgozására). Később a szövegbányászat megjelenése lehetőséget biztosított a szövegek feldolgozására, információk kinyerésére. Fogalmazhatunk úgyis, hogy a szövegbányászatnak köszönhetően csökkent a ’hulladék’ adatok mennyisége.
Azonban mi helyzet a személyes és elérhetőségi adatokkal? Nyilván nincs értelme olyan elemzéseknek, hogy:
- a „Kovácsok” 20%-al többet vásárolnak X termékből, mint a „Szabók”.
- akinek a telefonszáma 2-esre végződik, azok nagyobb valószínűséggel mondják fel a szerződést
- a „Kossuth” utcában élők 10%-al többet utalnak, mint a „Petőfi” utcában élők.
Még akkor se szokás ilyen elemzésekkel foglalkozni, ha statisztikailag szignifikáns az eredmény jönne ki. Bizonyos információk persze kinyerhetők ezekből az adatokból is:
Név | Mi az ügyfél neme? „Férfi”/”Nő” |
Cím | Milyen település típuson lakik? „Budapest”/”Megyeszékhely”/”Város”/”Egyéb” |
Mobilszám | Melyik szolgáltatónál van? „Telekom”/”Telenor”/”Vodafone” |
Vezetékes | Van-e vezetékes telefonja? „Van”/”Nincs” |
Melyik „szolgáltatónál” van? „gmail”/”fremail”/”yahoo”/… | |
… |
Azonban az esetek többségében még a fenti adatkinyerésre se kerül sor, így ezekre a változókra ténylegesen mint „hulladék” változóra tekintünk (és kidobjuk a tanító adatbázisból). Pedig a személyes és elérhetőségi adatok alapján egy teljesen új típusú információhoz juthatunk, mégpedig az adatbázisban szereplő magánszemélyek kapcsolati hálójához (vagy legalábbis annak egy része).
Az ötlet nagyon egyszerű: kössük össze egy éllel azokat a magánszemélyeket, amelyeknek van megegyező attribútuma. Nézzük a fenti példát:
- A és B azért van összekötve, mert megegyezik a címük és az általuk megadott email cím (zöld él)
- A és G azért van összekötve, mert megegyezik az általuk megadott email cím (kék él)
- B és G azért van összekötve, mert megegyezik az általuk megadott email cím (kék él)
- D és F azért van összekötve, megegyezik a címük.
Sőt a fentieken túl be lehet vezetni akár „testvér” élt, amikor:
- Két magánszemélynek megegyezik a vezetékneve ÉS
- megegyezik édesanyjuk neve.
A fenti típusú gráfok hatékonyak lehetnek csalás detektálásnál vagy marketing kampányok célcsoportjának kijelölésénél, így kijelenthető hogy a gráfábrázolás is (csakúgy, mint a szövegbányászat) hatékony eszköz az „adathulladék gazdálkodás” kezelésében.
Szerzői megjegyzés: a fenti módszertan egy elvi lehetőséget mutat be, nem foglalkozik az ezzel kapcsolatos adatvédelmi kérdésekkel.
Következő bejegyzésben azt mutatom be, hogy a fenti típusú gráfokból hogyan nyerhetők ki hatékony információk.