Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
Andego Tanácsadó Kft.
  • Bemutatkozunk
  • Tanácsadás
    • Adatbányászat
    • Hálózatelemzés
    • Weblog elemzés
    • CRM
  • Megoldások
    • Csalásdetektálás
    • Céginformációs szolgáltatás
    • Cégcsoport detektálás
    • Kockázati Modul
  • Oktatás
    • Szemináriumos naptár
    • Microsoft Akadémia
      • Excel
      • Power Pivot
      • Machine Learning
    • Open Source adatbányászat
      • R
      • Rapid Miner
    • Adatbányászat
    • Hálózatkutatás
  • Kapcsolat
  • Andego Blog
  • Home
  • Blog
  • Mém neve – Big Data II. rész

Mém neve – Big Data II. rész

2013. január 30. szerda Bejegyezte Kovács Gyula

Háttér

Napjainkban egyik legnagyobb BI  mémje a "Big Data" kifejezés. Szinte nincs olyan BI esemény, ahol ne Big Data lenne a központban, azonban érdekes módon a hazai adatbányász szakmát egyenlőre nem igazán érintette meg a téma.

A Big Data témát körbejáró cikksorozatunk második részében Prekopcsák Zoltánnal készült interjúnk található.

2. rész - Mit is az a Big Data?

Ahhoz hogy erre a kérdésre választ kapjunk, úgy gondolom érdemes egy vérbeli szakembert megkérdezni. Az alábbi,  Prekopcsák Zoltánnal készült interjúban megpróbáltunk közelebb kerülni a Big Data "rejtély" megoldásához.

Mi is pontosan a Big Data?
A Big Data egy nehezen megfogható és definiálható trend ami sokak szerint gyökeresen megváltoztatja az informatikát és talán más iparágakat is. Az adatok gyűjtésének, tárolásának és elemzésének költségei rohamosan csökkennek és ezáltal olyan új lehetőségek jönnek létre, amelyeket néhány évvel ezelőtt nem lehetett volna költséghatékonyan megvalósítani. Az adatokat kihasználó cégek versenyelőnyt szereznek a piacon, és sokkal gyorsabban tudnak alkalmazkodni a változásokhoz. Tulajdonképpen évtizedek óta ez az üzleti intelligencia ígérete is, azonban a nagyobb, részletgazdagabb adathalmazok ezt egy magasabb szintre emelik.

OK, ez mind szép, de nem ugyanezt mondták 15 éve az adattárházakra? Hogyan képzeljük el, miben más egy Big data adatbázis és egy klasszikus adattárház.

Talán a legnagyobb különbség, hogy sok esetben itt az adatok fizikailag nem egy helyen vannak tárolva, hanem szétszórva különböző gépeken. Ahhoz hogy az egymástól távol lévő adatok lekérdezése hasonló sebességgel történjen, mint amit már megszoktunk a hagyományos relációs adatbázisoknál, nos ehhez teljesen új adattárolási és lekérdezési módszereket kellett kifejleszteni. Egy másik nagy újdonság, hogy Big Data-ban szó szerint bármi tárolható (kép, hang, szöveg), azaz itt szó sincs hagyományos értelemben vett strukturált adatbázisról.

Mikor és honnan indult el a Big data története?
Természetesen évtizedekkel ezelőtt is léteztek olyan problémák melyek megoldásához nagy adathalmazok kezelésére volt szükség, azonban csak az elmúlt évtizedben indult meg az alkalmazási területek rohamos bővülése. A mai értelmezésében a Big Data kifejezést állítólag 1997-ben használták először a NASA kutatói, de csak az elmúlt 3-5 évben lett igazán felkapott.

Azonban ha két céghez kellene kötni a Big Data robbanását, akkor a Google-t és a Yahoo-t emelném ki. A Google-nál dolgozó szakemberek fektették le a  Big Data elméleti alapjait, míg a Yahoo tett sokat azért, hogy ez elérhető legyen egy szélesebb felhasználói kör számára.

Prekopcsák Zoltán - OSBI előadásából

Prekopcsák Zoltán - OSBI előadásából

Forrás

Hány MB/GB/TB felett beszélünk Big Data-ról?

Nekem az a kedvenc definícióm erre, hogy akkor beszélünk Big Data feladatról, ha az adatméret kezelése már önmagában komoly kihívásokat okoz. Amennyiben strukturált adataink vannak és csupán egyszerű lekérdezéseket akarunk futtatni, akkor hagyományos relációs adatbázisokkal több TB adatot is kényelmesen tudunk kezelni, így ezt csak több tíz vagy akár több száz TB felett tekinthetjük Big Data feladatnak. Ezzel szemben ha komplex adatbányászati algoritmusokat akarunk futtatni, akkor a legtöbb elérhető eszköz csak memóriában tud dolgozni. Ilyenkor már néhány tíz GB adat elemzése is kihívásokat jelenthet. Persze ha valakinek egy kis teljesítményű laptop az elsődleges munkaeszköze, akkor már sokkal hamarabb akadályokba ütközhet.

Mi a kapcsolat a big data es a felhők között?
Ahogy az imént említett adatméretekből is sejthető, a Big Data feladatokat tipikusan nem egy számítógépen, hanem tíz, száz, esetenként több ezer számítógépen elosztva oldják meg. Egy ilyen méretű infrastruktúra beszerzése és folyamatos üzemeltetése komoly kihívás mind anyagilag mind szakmailag, ráadásul nehezen tervezhető és méretezhető. Emiatt a Big Data feladatok tökéletesen illeszkednek a felhő által nyújtott előnyökhöz, ahol rugalmasan skálázódva tudunk gépeket igényelni. Ennek megfelelően az Amazon, a Google és a Microsoft felhőszolgáltatásában is találhatunk Big Data technológiákat.
A felhő technológia egy régebb óta jelenlévő trend az informatikában és a Big Data terjedésével ez a két trend csak még tovább erősíti egymást.

Kik a legfontosabb big data szállítók? Egyáltalán vannak ilyenek?
Az összes nagy üzleti intelligencia és adattárház szállító rendelkezik big data megoldásokkal melyeket vagy házon belül fejlesztett, vagy felvásárlásokkal jutott hozzájuk. Ilyen nagy adathalmazok elemzésére kihegyezett adattárház cég volt például a Vertica (felvásárolta a HP 2011-ben), az Aster Data (Teradata, 2011) és a Greenplum (EMC, 2010). A nagyok mellett természetesen van még rengeteg cég akik dinamikus növekedésben vannak ezen a területen. Ilyen például a Hadoop technológia legerősebb szállítója, a Cloudera. Azt gondolom, hogy 2-3 éven belül a Big Data területén is konszolidáció várható, így még nem látszik hogy kik lesznek a piacvezető szállítók.

Az adatbányászokat mennyire érinti a téma?
Egyelőre talán még kevéssé, de ez csak idő kérdése. Az ETL, adattisztítási és riporting feladatokat már többnyire kiszolgálják a Big Data megoldások, azonban a statisztika, adatbányászati modellezés, gépi tanulás területén még többnyire gyerekcipőben járnak ezek az eszközök. Egy másik aspektus, hogy az adatbányászati elemzések többnyire olyan entitásokra (ügyfelekre, cégekre, biztosítási szerződésekre stb.) korlátozódnak, amikből tipikusan legfeljebb néhány millió van magyar viszonylatban. Néhány millió rekord kezelése még nem Big Data probléma, de amint egy ennél részletesebb szinten tervezünk modellezni, akkor problémákba ütközhetünk. Például egy tranzakciós adatokon működő csalásfelderítési eljárás már egy magyar bank esetén is dolgozhat akkora adatmérettel, ami a szokásos eszközökkel nem kezelhető.

Amikor még a 90-es évek végén elkezdtem adatbányászattal foglalkozni, az akkor 100.000-es rekordszámú adatbázisok elemzése jelentett óriási kihívásokat. Az adatbányászok éppen ezért "találták" ki a mintavételezést. A Big Data esetében erről alig hallani. Ennek mi lehet az oka?

Ez egy érdekes kérdés. Az egyik ok, hogy napjainkban nem ugyanazok a tipikus adatbányászati feladatok, mint mondjuk 10 éve. Egy olyan klasszikus  adatbányászati feladatnál, mint például  Churn  modellezés, a mintavételezés egy teljesen járható út, és többnyire a kapott modellek jól használhatók az üzleti folyamatokban.  Azonban vannak olyan problémák, mint például csalás detektálás, ahol a probléma jellege miatt lehetetlen a mintavételezés, csakis a teljes adatbázis alapján számolhatók ki pontos modellek. Másrészt azt is látni kell, hogy a Big Data ereje éppen abban áll, hogy a tárolt rengeteg információ segítségével még jobb és pontosabb modellek építhetők. Egy mintavételezés törvényszerűen ezt az erejét csorbítaná.

IBM/SPSS es a SAS-nak (a két legnagyobb hazai DM szállítónak) milyen big data megoldása van?
Mivel a Big Data egy lazán definiált fogalom, ezért nehéz meghatározni, hogy mely termékeiket kell ide sorolni. Az IBM esetén a Hadoop alapú InfoSphere BigInsights illetve a Netezza adattárház mindenképp ide tartozik, de tudomásom szerint az SPSS termékcsaládban nincsen jelentős big data támogatás. A SAS-nál a High-Performance Analytics Server a fő termék ami nagy adathalmazokat tud kezelni és ezt az Enterprise Miner bizonyos algoritmusai is támogatják.

Beszélnél egy kicsit a Radoop-ról? Úgy gondolom ez egy olyan  innováció Tőletek, ami talán közelebb tudja hozni a Big Data technológiát a hazai felhasználókhoz.
A Big Data feladatok megoldására jelenleg a nyílt forráskódú Hadoop keretrendszer a legelterjedtebb és leginkább költséghatékony megoldás, azonban a használata bonyolult, komoly szakértelmet és tapasztalatot igényel. A Radoop arra kínál megoldást, hogy ugyanolyan egyszerű legyen Big Data adatelemzési folyamatokat létrehozni, mintha kis adattal lenne dolgunk. Az a célunk, hogy a grafikus adatbányászati szoftverekhez hasonló felületet nyújtsunk és az integrációhoz az egyik legnépszerűbb adatbányászati eszközt, a RapidMinert választottuk.

A fejlesztés már több mint 2 éve zajlik, nyáron jelent meg az 1.0 és márciusra tervezzük a következő verzió kiadását, amiben az adatelőkészítési funkciók mellett már több adatbányászati algoritmus (osztályozó, klaszterező, outlier kereső) is megtalálható lesz. A termék együttműködik az összes jelentős Hadoop verzióval, a klaszterekhez pillanatok alatt csatlakoztatható, és a felhasználók máris egy kényelmes felületen keresztül elemezhetnek hatalmas adathalmazokat. A termékre komoly érdeklődés van a világ minden tájáról, úgyhogy nagyon optimistán várjuk az idei évet.

Mi a helyzet itthon? Vannak már big data DM projekt?
Itthon minden informatikai trend lassabban terjed mint az amerikai és nyugat-európai piacon és így van ez a big data területtel is. Az egyik legjelentősebb Hadoop felhasználó itthon a Prezi, ahol foglalkoznak adatbányászattal is. Rajtuk kívül több cég is gondolkodik Hadoop alapú rendszerek bevezetésén és azt hiszem 2013-ban több ilyen bevezetést is fogunk látni.

Köszönöm az interjút, és további sok sikert kívánok a Radoop piaci bevezetéséhez!

Blog
big data, google, Greenplum, ibm, netezza, radoop, sas, yahoo
Mém neve – Big Data I. rész
Mém neve – Big Data III. rész

Legutóbbi bejegyzések

  • Így olvastok Ti!
  • Mennyit keres egy programozó?
  • A rosszat tudod javítani – a jót nem!
  • Mihez is ért a Data Scientist?
  • Adatok hulladékgazdálkodása

evolve theme by Theme4Press  •  Powered by WordPress