Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Gráfbányászati esettanulmány – hogyan húzzunk be éleket cégek között?

Gráfbányászati esettanulmány – hogyan húzzunk be éleket cégek között?

2016. január 4. hétfő Bejegyezte Kovács Gyula

Az Andego Tanácsadó Kft. a Sixtep Kft.-vel karöltve az elmúlt években komoly tapasztalatot szerzett gráfok adatbányászatában, egyik közös projektünk célja a cégek bedőlésének/csődjének előrejelzése a kapcsolati hálójuk alapján. Ezen kapcsolati háló felépítésének azonban sok kérdéses pontja, buktatója lehet, ezek közül osztanánk meg egyet.

Amikor egy hálózatot létrehozunk, mérlegelnünk kell, milyen éleket húzzunk be a pontok között. Egy céginformációs gráf létrehozásakor például az egyértelmű, hogy két cég kapcsolódik egymáshoz, ha közös a tulajdonosuk, de nem feltétlenül ez az egyetlen olyan ismérv, ami számít abban, hogy két cég kapcsolatban áll-e egymással. Tegye fel a kezét, aki nem ismer olyan két céget, amelyiknek tulajdonosi háttere direkt különbözik, mégis egyértelműen egy irányítás alatt állnak! A tulajdonosi hátteren kívül tehát más jellemzők alapján is szükséges lehet a cégek összekötése. Például dönthetünk úgy, hogy két cég kapcsolódik egymáshoz, ha megegyező székhelyen vannak bejelentve, vagy azonos helyen van a telephelyük, vagy megegyezik a telefonszámuk, emailcímük. Ha minden ilyen ismérvet figyelembe veszünk, akkor viszont egy nagyon "sűrű" gráfot kapunk benne rengeteg irreleváns éllel. De hogyan tudjuk eldönteni, hogy mely cégeket kell kell összekötni, és mely pontokat nem? Azaz mely kapcsolatok használhatók fel csőd előrejelzésnél és mely kapcsolatok nem?

graf

Vegyük például azt az esetet, amikor két céget összekötünk, mert a székhelyük címe megegyezik. Egy irodaházban lehet több száz cég, akinek a dolgozói épp csak a folyosón találkoznak egymással, de ettől ha az egyik cég csődbe megy, nem fog egy másik is ennek hatására becsődölni. A legkézenfekvőbb, hogy méretfüggő, hogy kapcsolatban állnak-e ezen cégek vagy sem, például kizárhatjuk azokat a székhelyeket, ahová sok cég van bejelentve. Ekkor merül fel az a kérdés, hogy mi az a méret, aminél még hatással vannak egymásra a cégek, hogyan állapítsuk ezt meg?

Erre egy megoldási öltet, hogy megnézzük, mely méretű gráfoknál feltételezhetjük, hogy egymásra hatás miatt dőltek be cégek, és mely méretűeknél független egymástól két bedőlés. (Itt fontos megemlíteni, hogy ha csak székhely alapján kötünk össze cégeket, akkor a kapott gráf igazából sok teljes gráf összessége, ahol egy teljes gráf egy cím, hiszen egy cégnek csak egy székhelye lehet.) Az adott méretű teljes gráfokon azt kell megnéznünk, hogy függetlenséget lehet-e feltételezni két esemény között. Ha a részgráfban van olyan cég, aki csődbement, akkor annak a valószínűsége, hogy egy másik cég csődbe fog menni, nagyobb lett (a csőd következménye egy másik csőd) vagy ugyanakkora maradt (véletlen esemény).

A tapasztalatunk az, hogy cégek között igenis létezik "fertőzés" akár cím kapcsolatokon keresztül is, de csak olyan esetekben, ahol az adott címen viszonylag kevés cég volt bejelentve. Ennek megfelelően sikerül olyan limiteket beállítanunk, amelyek segítségével drasztikusan csökkentettük a kapcsolatok ("felesleges kapcsolatok") számát, és így a hálózati információs prediktív ereje is jelentősen növekedett.

Tanulság?

A kapcsolati hálók alkalmazása prediktív modellezésnél (csőd előrejelzés, csalás detektálás, vélemény terjedés vizsgálata) igen hasznos, azonban igazán jelentős eredmény csak akkor érhető el, ha az élek definíciójánál figyelembe vesszük, mit is szeretnénk előrejelezni a hálózattal.

Blog
csalás detektálás, csőd előrejelzés, fraud, gráfbányászat, graph mining, Hálózatkutatás
Csőd előrejelzés
Csalók a felhőben

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress