HÁTTÉR
A Discovery Corps cég honlapján Tim Graettingertől található egy cikk "More Frequently-Asked Questions (and Answers) about Data Mining" címmel. A cikk gyakorlatilag néhány praktikus tanácsot ad kezdő adatbányászoknak a hogyan építsenek minél jobb modelleket témakörben.
http://www.discoverycorpsinc.com/grab-bag-2-more-faqs-about-dm/
KOMMENTÁR
Hívők és szkeptikusok az adatbányászok körében
Lassan 15 éve foglalkozom adatbányászattal, és ezen idő alatt sokszor voltam hívő és sokszor szkeptikus. Mint mindenki, aki elkezd adatbányászattal foglalkozni, én is hívő voltam az elején. Döbbenetes volt látni, hogy milyen gyorsan érhetők el látványos eredmények. Majd ugyanilyen döbbenetes volt látni, hogy a gyakorlatban ezek mennyire alulteljesítenek. A végén aztán ott álltunk trivialitások halmazával vagy olyan modellekkel, amik az éles adatokon nem teljesítettek jól.
Egy jó adatbányász persze ilyenkor nem adja fel, és megpróbál javítani a modellek teljesítményén. Az egyik tipikus módszer a meglévő input adatok transzformációja. Én magamban csak "kreatív könyvelésnek" hívom. Az elemző ilyenkor saját kezébe veszi a dolgokat, és a meglévő input változókból újabb és újabb változókat hoz létre. Ez egyrészt egy logikus lépés, mert bizonyos összefüggéseket az adatbányászati algoritmusok képtelenek megtalálni, de az esetek többségében ezek a transzformációk nem vagy csak alig javítanak az első modellek teljesítményén.
Aztán egy másik módszer különböző algoritmusok futtatása (döntési fa, SVM, neurális háló, stb.), majd a legjobb kiválasztása. Az esetek többségében itt se érhető el számottevő javulás.
Néhányan ekkor térnek át a szkeptikusok oldalára.
Eltérő vallási irányzatok az adatbányászatban
A legtöbb adatbányász azonban továbbra is hívő marad (vagy lesz újra és újra). Ehhez viszont valamilyen sikerélmény kell. Több úton lehet elindulni - én kettőt emelnék ki: "a kutatók" és "az üzleti elemzők" útját.
Kutatók. Az adatbányászat létező fogalom mind az üzleti mind a tudományos életben. Ez utóbbi területen matematikusok és fizikusok folyamatosan újabb és újabb algoritmusokat és módszereket fejlesztenek ki. Teszik ezt abban a hitben, hogy az újabb és újabb algoritmusok egyben jobbak is a régieknél. Az ún. nyílt adatbányászati versenyeken valójában ennek a vallásnak hívői vesznek részt.
Üzleti elemzők. A business analyst egy viszonylag új fogalom, ők egy másik irányban hisznek. Abból a feltevésből indulnak ki, hogy az adatbázisban lévő információk 90-95%-a nagyon gyorsan kinyerhető standard adatbányászati algoritmusokkal, míg a hiányzó 5-10% nem, vagy csak olyan mennyiségű munka árán, ami már nem profitábilis. Ez az irányzat az adatbővítésben hisz. Ha nem elég pontos a kiinduló modell, akkor az üzleti elemzők új adatok után kutatnak a cég adatvagyonának átvilágításán keresztül.
Vegyük észre, hogy a két irányzat nem mindig független egymástól. Jó példa erre az adatbányászat egyik legdinamikusabban fejlődő területe: szöveg- és hangbányászat. Nem történt más, minthogy az üzleti elemzők felismerték ezen adatbázisok jelentőségét, a kutatók/fejlesztők pedig kifejlesztették a nem strukturált adatok elemzését lehetővé tevő algoritmusokat.
Hogyan tovább?
Napjainkban óriási iramban keletkeznek adatok, beléptünk a "big data" korszakába. Az óriási adatbázisok elemzése újfajta kihívásokat jelentenek. Most az egyik legfontosabb kérdés az adatok lekérdezhetősége, a bonyolult szofisztikált modellezésre sokszor nincs is lehetőség. Ezen a területen az üzleti elemzőkre úgy tűnik nem igazán lesz szükség.
A vállalati adattárházak mérete viszont jól kezelhető, ezeken adatbányászati elemzések évek óta folynak, igaz a legtöbb helyen ezek valahol félúton vannak. Itt valódi igény lehet mind az üzleti elemzőkre, mind a kutatókra. Az üzleti elemzők feladata a "rendteremtés", megfelelő irányok kijelölés, míg a kutatók feladata lehet az új adatbányászati algoritmusok (szövegbányászat, hangbányászat) üzleti környezetbe történő implementálása.