Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Egyszerű adattisztítást mindenkinek!

Egyszerű adattisztítást mindenkinek!

2017. július 25. kedd Bejegyezte hadhazi

Adattisztítás

Az adatbányászatról sokan, sok helyen elmondták már, hogy az adat előkészítése a munka 80%-a, ennek pedig legalább a fele (ha nem több) az adatok egységes és értelmes formára hozása, azaz tisztítása. Ezzel a problémával mi is rendszeresen megküzdünk, ugyanis minden cégnek más hibák fordulnak elő az adataiban. Ezek a hibák lehetnek konkrét elgépelések is (Nagy Zoltán vs Nagy Zolán), de eredhetnek a felhasználóktól is (Nagy Zoltán vs Nagy Z. Zoltán). Ha ilyen problémába futunk, először eldöntjük hogy tudjuk-e egyértelműen kezelni ezeket a hibákat (egyszerű javításokkal, vagy a hibás sorok eldobásával), vagy sem. Utóbbi esetben - ha nem hagyhatjuk figyelmen kívül - általában egységes alakra formázzuk az adatokat. Ez a folyamat nagyot tud lendíteni az adatok használhatóságán, ezáltal sokkal jobb eredményeket tudunk elérni. Azonban nem csak az ügyféltől kapott adatok egyszerűsödésének köszönhető, hanem annak is, hogy más, ugyannilyen módon tisztított adatbázisokkal sokkal jobb arányban összekapcsolható, így több és pontosabb adat alapján tudjunk elvégezni az elemzést.

Természetesen minden egyes hibakeresés és javítás időt és energiát igényel, ezért elkezdtük összegyűjteni, milyen hibákkal találkoztunk a különböző projektekben, és ezeket hogyan kezeltük - így elkészült több projekt alapján egy R függvénygyűjtemény, amit most csomagként elérhetővé teszünk (egyelőre GitHub-on), amivel három célunk is van.

Az egyik, hogy másnak már ne kelljen azokat a feladatokat megoldania, amiken mi már túl vagyunk, ily módon vissza is tudunk adni az R-nek és a körülötte lévő közösségnek, aminek köszönhetően hatékony és olcsó eszközként tudjuk mi is használni.
A második cél a csomag javítása. A függvények ugyanis nem teljesek, csak azokat a hibákat kezelik, amikkel találkoztunk és kezelhetőnek tartottunk, így rengeteg eset előfordulhat, amit nem tud megtisztítani a kód. Ha ilyennel találkozik bárki, akkor nyithat egy "issue"-t, vagy javíthat a függvényeken, hogy kezeljék az általa talált adathibát. Ugyanez a helyzet akkor, ha a csomagban van hiba: tudassa velünk, és igyekszünk mihamarabb javítani.
A harmadik cél sokkal távlatibb: egységes adattisztítással sokkal könnyebb összekapcsolni különböző adatbázisokat, így minél többen használják e függvényeket, annál nagyobb eséllyel kapunk mi is könnyen használható táblázatokat, aminek köszönhetően még több idő jut majd az elemzésre.

 

Adattisztításra fel!

Blog
adattisztítás, github, open source, R
Ki volt az első adatbányász?
Budapest Data Fórum beszámoló

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress