Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Vallási irányzatok az adatbányászatban

Vallási irányzatok az adatbányászatban

2011. december 10. szombat Bejegyezte Kovács Gyula

HÁTTÉR

A Discovery Corps cég honlapján Tim Graettingertől található egy cikk "More Frequently-Asked Questions (and Answers) about Data Mining" címmel.  A cikk gyakorlatilag néhány praktikus tanácsot ad kezdő adatbányászoknak a hogyan építsenek minél jobb modelleket témakörben.

http://www.discoverycorpsinc.com/grab-bag-2-more-faqs-about-dm/

KOMMENTÁR

Hívők és szkeptikusok az adatbányászok körében

Lassan 15 éve foglalkozom adatbányászattal, és ezen idő alatt sokszor voltam hívő és sokszor szkeptikus. Mint mindenki, aki elkezd adatbányászattal foglalkozni, én is hívő voltam az elején. Döbbenetes volt látni, hogy milyen gyorsan érhetők el látványos eredmények. Majd ugyanilyen döbbenetes volt látni, hogy a gyakorlatban ezek mennyire alulteljesítenek. A végén aztán ott álltunk trivialitások halmazával vagy olyan modellekkel, amik az éles adatokon nem teljesítettek jól.

Egy jó adatbányász persze ilyenkor nem adja fel, és megpróbál javítani a modellek teljesítményén. Az egyik tipikus módszer a meglévő input adatok transzformációja. Én magamban csak "kreatív könyvelésnek" hívom. Az elemző ilyenkor saját kezébe veszi a dolgokat, és a meglévő input változókból újabb és újabb változókat hoz létre. Ez egyrészt egy logikus lépés, mert bizonyos összefüggéseket az adatbányászati algoritmusok képtelenek megtalálni, de az esetek többségében ezek a transzformációk nem vagy csak alig javítanak az első modellek teljesítményén.

Aztán egy másik módszer különböző algoritmusok futtatása (döntési fa, SVM, neurális háló, stb.), majd a legjobb kiválasztása. Az esetek többségében itt se érhető el számottevő javulás.

Néhányan ekkor térnek át a szkeptikusok oldalára.

Eltérő vallási irányzatok az adatbányászatban

A legtöbb adatbányász azonban továbbra is hívő marad (vagy lesz újra és újra). Ehhez viszont valamilyen  sikerélmény kell. Több úton lehet elindulni - én kettőt emelnék ki: "a kutatók" és "az üzleti elemzők" útját.

Kutatók. Az adatbányászat létező fogalom mind az üzleti  mind a tudományos életben. Ez utóbbi területen matematikusok és fizikusok folyamatosan újabb és újabb algoritmusokat és módszereket fejlesztenek ki. Teszik ezt abban a hitben, hogy az újabb és újabb algoritmusok  egyben jobbak is a régieknél. Az ún. nyílt adatbányászati versenyeken valójában ennek a vallásnak hívői vesznek részt.

Üzleti elemzők. A business analyst egy viszonylag új fogalom, ők egy másik irányban hisznek. Abból a feltevésből indulnak ki, hogy az adatbázisban lévő információk  90-95%-a nagyon gyorsan kinyerhető standard adatbányászati algoritmusokkal, míg a hiányzó 5-10% nem, vagy csak olyan mennyiségű munka árán, ami már nem profitábilis. Ez az irányzat az adatbővítésben hisz. Ha nem elég pontos a kiinduló modell, akkor az üzleti elemzők új adatok után kutatnak a cég adatvagyonának átvilágításán keresztül.

Vegyük észre, hogy a két irányzat nem mindig független egymástól. Jó példa erre az adatbányászat egyik legdinamikusabban fejlődő területe: szöveg- és hangbányászat. Nem történt más, minthogy az üzleti elemzők felismerték ezen adatbázisok jelentőségét, a kutatók/fejlesztők pedig kifejlesztették a nem strukturált adatok elemzését lehetővé tevő algoritmusokat.

Hogyan tovább?

Napjainkban óriási iramban keletkeznek adatok, beléptünk a "big data" korszakába. Az óriási adatbázisok elemzése újfajta kihívásokat jelentenek. Most az egyik legfontosabb kérdés az adatok lekérdezhetősége, a bonyolult szofisztikált modellezésre sokszor nincs is lehetőség. Ezen a területen az üzleti elemzőkre úgy tűnik nem igazán lesz szükség.

A vállalati adattárházak mérete viszont jól kezelhető,  ezeken adatbányászati elemzések évek óta folynak, igaz a legtöbb helyen ezek valahol félúton vannak. Itt valódi igény lehet mind az üzleti elemzőkre, mind a kutatókra. Az üzleti elemzők feladata a "rendteremtés",  megfelelő irányok kijelölés, míg a kutatók feladata lehet az új adatbányászati algoritmusok (szövegbányászat, hangbányászat) üzleti környezetbe történő implementálása.

Blog
adatbányászat, big data, business analyst, hangbányászat, k+f, szövegbányászat, text mining, üzleti elemző, voice mining
Pénzcsináló
Online póker data mining stratégia

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress