Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Amikor a mintavételezés a probléma

Amikor a mintavételezés a probléma

2018. június 22. péntek Bejegyezte hadhazi

A prediktív modellezés sikerét elsődlegesen az határozza meg, hogy milyen minőségű tanító adatbázist sikerül felépítenünk. Maga a kérdés a következő: tudunk-e olyan adatokat összegyűjteni, amelyek alapján választ kaphatunk a kérdéseinkre. Ha olyan adatokat gyűjtünk össze, melyek nem relevánsak az adott problémával kapcsolatban, akkor az adatelemzés kudarcra van ítélve. Sokszor a helyzet még bonyolultabb, mivel magát a kérdést sem ismerjük pontosan. Jelen cikkben a fiktív cégek beazonosításán keresztül kerül ismertetésre az ilyen típusú problémák egy lehetséges megoldása.

Fiktív cégek

Fiktív (fantom) cégeknek nevezzük azokat a társaságokat, amelyeket alapítóik évekkel korábban hoztak létre, ma már azonban tényleges tevékenységet nem fejtenek ki, de még nem szüntették meg azokat.  Fantomcégek továbbá a jogellenes tevékenység folytatását leplező vállalkozások, bejegyzett tevékenységüket ténylegesen nem gyakorolják, csupán a fiktív ügyletek során kiállított számlákat adják és veszik különféle láncolatok, "számlagyárak" tagjaként. A fiktív cégek alatt tehát hétköznapi értelemben olyan cégeket értünk, melyek nem végeznek valós gazdasági tevékenységet, és elsődlegesen pénzmosás céljából jönnek létre.

A tanítás folyamatát az alábbi diagram mutatja:

fiktiv_folyamat

Azaz első lépésben elő kell állítani egy tanító adatbázist, melyben vannak fiktív cégek és nem fiktív cégek, hozzájuk gyűjtünk kiegészítő adatokat, és azt vizsgáljuk, hogy a fiktív cégekre milyen egyedi összefüggések jellemzők.

Azonban mi a helyzet akkor, ha a nem tudunk ilyen mintát előállítani? Jelen esetben nem érhető el egy megbízható lista a magyarországi fiktív cégekről (és valószínűleg soha nem is lesz elérhető ilyen lista). Ez azt jelenti, hogy a mintába került cégekről nem jelenthetjük ki egyértelműen, hogy melyik fiktív és melyik nem. Ha ez így van, akkor hogyan tudunk mégis modellezni?

Fiktív gyanús szegmensek képzése

Ilyen esetben egy megoldás lehet, hogy módosítjuk a feladatot. Habár fiktív cégek listája nem elérhető, van néhány támaszkodó esetükben:

  • a fiktív cégek sok esetben néhány magánszemély kezében összpontosulnak, nem ritka, hogy több 100 cége van ezen fiktív gyárak tulajdonosainak (céghalmozók)
  • ráadásul ezen cégek többsége ún. cégtemetőre vannak bejelentve, azaz olyan társasházi lakásra, ahol több száz, esetenként több ezer cég van bejelentve (cégtemetők)

Ezen két cégjellemző alapján elő lehet állítani különböző szegmenseket:

  1. szegmens: azon cégek, amelyek tulajdonosai céghalmozók és a cégek cégtemetőre vannak bejelentve
  2. szegmens:  azon cégek, amelyek tulajdonosai céghalmozók, de a cégek nem cégtemetőre vannak bejelentve
  3. szegmens: azon cégek, amelyek tulajdonosai nem céghalmozók, de a cégek cégtemetőre vannak bejelentve.

A szakértői tapasztalatok alapján kijelenthető, hogy az 1. szegmensben nagyon nagy számban lehetnek fiktív cégek, a 2. szegmensben is jellemzően ilyen cégek vannak, sőt a 3. szegmensben is valószínűleg átlag feletti a fiktív cégek aránya.

Az adatbányászati probléma így módosítható: olyan prediktív modellt készítsünk, ahol a célváltozó a fenti szegmens címke.

A modellezésnél azokat a 4 szegmens egyedi jellemzőit keressük, így az 1. szegmens jellemzői nagy valószínűséggel a fiktív cégek jellemzői lesznek. Ez természetesen hipotézis, amit egyedi tesztekkel kell később validálni, de a fenti modellezési eljárással nagy valószínűséggel olyan modell építhető fel, ami az eredeti kérdéseinkre is választ ad.

 

 

Blog
Fiktív cégek a magyar gazdaságban
Futball Vb margójára

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress