Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Adatok hulladékgazdálkodása

Adatok hulladékgazdálkodása

2019. szeptember 16. hétfő Bejegyezte hadhazi

Napjaink egyik legfontosabb témája a környezetvédelem, nap mint nap érkeznek sokkoló képek szeméthegyekről, tönkretett tájakról. Hulladékkezelés és feldolgozás nélkül talán már bele is fulladtunk volna ezekbe a szeméttengerekbe. Na de miért is jutott ez eszembe egy adatbányászat blog írása közben?

Nos az adatokkal se állunk jobban: percről percre keletkeznek TB-nyi új adatok, úgy hogy ezen adatok egy (jelentős) része nem „elemezhető”, azaz folyamatosan keletkezik az „adathulladék” is. Az írás röviden bemutat egy eljárást az „adathulladék” csökkentésére.

Kezdjük az alapoknál. Az adatbázisokban alapvetően két adattípussal találkozhatunk: (i) numerikus adatok, és (ii) szöveges adatok. Most koncentráljunk ez utóbbira! Az alábbi táblázatban csoportosítottam a szöveges adatokat ezek hossza és a lehetséges változóérték eloszlása alapján.

Jellemzők Kategória változók Személyes és elérhetőségi adatok Szövegek
Példa Lakóhely típusa, nem („férfi”/”nő”), milyen számla csomagja van, … Név, lakcím, telefonszám, … Email szövege, hanganyag leiratozott szövege, blog bejegyzés, …
Változóértékek száma jellemzően 2-10 között (de semmiképp se 100-as vagy nagyobb nagyságrend) Több száz vagy ezer (vagy még több) különböző értéket vehet fel. Általában a leggyakoribb érték előfordulása sem jelentős Gyakorlatilag nincs ismétlődés, azaz a változó értékek mind különböznek egymástól.
Szövegek hossza Rövid (gyakran csak néhány karakter, és ezek is kódolhatók) Néhány szóból áll Összefüggő szöveg, ami több mondatból is állhat.

 

Sokáig kizárólag a kategória változók jöhettek szóba az adatelemzéseknél, a másik két adattípusra mint „adathulladék” tekintettünk (mivel nem volt eszközünk ezek feldolgozására). Később a szövegbányászat megjelenése lehetőséget biztosított a szövegek feldolgozására, információk kinyerésére. Fogalmazhatunk úgyis, hogy a szövegbányászatnak köszönhetően csökkent a ’hulladék’ adatok mennyisége.

Azonban mi helyzet a személyes és elérhetőségi adatokkal? Nyilván nincs értelme olyan elemzéseknek, hogy:

  • a „Kovácsok” 20%-al többet vásárolnak X termékből, mint a „Szabók”.
  • akinek a telefonszáma 2-esre végződik, azok nagyobb valószínűséggel mondják fel a szerződést
  • a „Kossuth” utcában élők 10%-al többet utalnak, mint a „Petőfi” utcában élők.

Még akkor se szokás ilyen elemzésekkel foglalkozni, ha statisztikailag szignifikáns az eredmény jönne ki. Bizonyos információk persze kinyerhetők ezekből az adatokból is:

Név Mi az ügyfél neme? „Férfi”/”Nő”
Cím Milyen település típuson lakik? „Budapest”/”Megyeszékhely”/”Város”/”Egyéb”
Mobilszám Melyik szolgáltatónál van? „Telekom”/”Telenor”/”Vodafone”
Vezetékes Van-e vezetékes telefonja? „Van”/”Nincs”
email Melyik „szolgáltatónál” van? „gmail”/”fremail”/”yahoo”/…
…

 

Azonban az esetek többségében még a fenti adatkinyerésre se kerül sor, így ezekre a változókra ténylegesen mint „hulladék” változóra tekintünk (és kidobjuk a tanító adatbázisból). Pedig a személyes és elérhetőségi adatok alapján egy teljesen új típusú  információhoz juthatunk, mégpedig az adatbázisban szereplő magánszemélyek kapcsolati hálójához (vagy legalábbis annak egy része).

Az ötlet nagyon egyszerű: kössük össze egy éllel azokat a magánszemélyeket, amelyeknek van megegyező attribútuma. Nézzük a fenti példát:

  • A és B azért van összekötve, mert megegyezik a címük és az általuk megadott email cím (zöld él)
  • A és G azért van összekötve, mert megegyezik az általuk megadott email cím (kék él)
  • B és G azért van összekötve, mert megegyezik az általuk megadott email cím (kék él)
  • D és F azért van összekötve, megegyezik a címük.

Sőt a fentieken túl be lehet vezetni akár „testvér” élt, amikor:

  • Két magánszemélynek megegyezik a vezetékneve ÉS
  • megegyezik édesanyjuk neve.

 

A fenti típusú gráfok hatékonyak lehetnek csalás detektálásnál vagy marketing kampányok célcsoportjának kijelölésénél, így kijelenthető hogy a gráfábrázolás is (csakúgy, mint a szövegbányászat) hatékony eszköz az „adathulladék gazdálkodás” kezelésében.

Szerzői megjegyzés: a fenti módszertan egy elvi lehetőséget mutat be, nem foglalkozik az ezzel kapcsolatos adatvédelmi kérdésekkel.

 

Következő bejegyzésben azt mutatom be, hogy a fenti típusú gráfokból hogyan nyerhetők ki hatékony információk.

Blog
adatbányászat, data mining, gráf, graph, hálózat, szociális háló
Adatbányászok doppingja
Mihez is ért a Data Scientist?

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress