Az elmúlt években többen is biztattak szakmai (adatbányászat, data science) blogok írására. Sokáig ellenáltam, de idén június környékén úgy döntöttem adok egy esélyt magamnak. Mi szólt mellette? Kíváncsi voltam, kit érdekelnek egy ilyen régi típusú adatbányász gondolatai, mint amilyen én vagyok? Kíváncsiság mellett talán még fontosabb volt, hogy egyszerűen élveztem az írást. Igazából ezeket akkor […]
Posts by
Mennyit keres egy programozó?
Az elmúlt hónapban számos felméréssel találkoztam hazai és nemzetközi IT fizetésekről. Az egyik ilyen felmérésről be is számoltam néhány hete, azon az látszott hogy a hazai fizetések egyelőre még a régiós átlagtól is elmaradnak (https://tomazweiss.github.io/blog/r_stackoverflow_survey/). Ha van lehetőségem, akkor szeretem az eredeti kutatási anyagot megnézni (sokszor találkoztam silány, szakmailag hibás fordítással). Nos a kutatás oldalán […]
A rosszat tudod javítani – a jó...
Nagyjából 2 éve vagyok Spotify előfizető. Azóta kitárult előttem egy olyan zenei spektrum, amiről korábban nem is álmodtam! Éppen ezért imádom ezt az alkalmazást. És gyűlölöm is. Legalábbis a heti válogatás funkcióját (“E heti kaland”). Ez egy dallista, amit minden héten a Spotify állít össze zenei ízlésem alapján. Nos, ez a funkció borzasztóan funkcionál. Szinte […]
Mihez is ért a Data Scientist?
Mihez ért a Data Scientist? Nem könnyű kérdés. Vannak persze kutatások arról, hogy a Data Scientist szakemberek milyen elemző eszközöket használnak, ami kiindulásnak nem rossz. Elég biztosan kijelenthető, hogy jelenleg a Python számít a legnépszerűbb adatadatelemző eszköznek, ezt mutatja KDnuggets két legfrissebb kutatása is. Az egyik szerint a Pythont a Rapidminer és az R követi (itt […]
Adatok hulladékgazdálkodása
Napjaink egyik legfontosabb témája a környezetvédelem, nap mint nap érkeznek sokkoló képek szeméthegyekről, tönkretett tájakról. Hulladékkezelés és feldolgozás nélkül talán már bele is fulladtunk volna ezekbe a szeméttengerekbe. Na de miért is jutott ez eszembe egy adatbányászat blog írása közben? Nos az adatokkal se állunk jobban: percről percre keletkeznek TB-nyi új adatok, úgy hogy ezen […]
Adatbányászok doppingja
Egy korábbi blog bejegyzésben (Kaggle átok) szó volt arról, hogy a Kaggle versenyeknek “köszönhetően” háttérbe szorult a túltanulás ellenőrzése és kezelése. Pedig ez egy valós veszély, mivel minden elemzőnek elsődleges célja a minél jobb modell építése, akár túltanulás árán is. Kicsit hasonlít a helyzet az élsportra. Ott is a teljesítmény hajszolása a cél, nagy a […]
Létezik prediktív modell? Avagy mit c...
Az adatelemzés az elmúlt 20 évben többször is átalakult, voltak sikeres és kevésbé sikeres alkalmazásai az üzleti életben. Sikeres történetek egyike a prediktív modellek megjelenése. És ez nem is csoda, hiszen mióta az ember öntudatra ébredt, és érzékeli az idő múlását, azóta foglalkoztatja a jövővel kapcsolatos kérdések. Filozófusok évszázadok óta vitatkoznak azon, hogy a jövőbeli […]
Kaggle átok
A 2010-ben alapított Kaggle a világ legnagyobb adatbányász közössége, 2017-re elérte a bűvös 1.000.000 regisztrációs számot. Az alapvetően adatbányászati versenyeket szervező oldalt a Google ugyanebben az évben vásárolta fel, nem titkoltan abból a célból, hogy innen vadássza le a legjobb adatelemzőket. Kaggle vitathatatlan érdeme, hogy katalizátor szerepet tölt be az adatelemzése széles körű elterjedésében. Mégis […]
Felvásárolt minket a Clementine
Az Andego Tanácsadó Kft. életében jelentős változás történt idén. Rengeteg olyan új ötletünk van amit szeretnénk megvalóstani, de ezek végrehajtása meghaladja cégünk jelenlegi erőforrásait. Két út állt előttünk: erőteljes bővülésbe kezdünk egy stratégiai szakmai partnert keresünk, akivel közösen folytatjuk ezeket a fejlesztéseket. Ez utóbbi mellett döntöttünk. Az önállóságunkat feladtuk annak ellenére, hogy 2018-ban az Andego […]
Futball Vb margójára
A világ egyik legnagyobb befektetési és pénzügyi tanácsadó cége a Goldman Sachs szakértői adatbányászati módszerekkel próbálták előrejelezni a 2018-as futball-vb eredményeit. Az előrejelzésnél minden elérhető adat rendelkezésre állt a csapatokról és a játékosokról, és ezeken a napjainkban olyannyira népszerű mesterséges intelligenciát alkalmazták az eredmények megtippeléséhez, mégis az előrejelzés kudarcot vallott, a gép által tippelt eredmények […]
Amikor a mintavételezés a probléma
A prediktív modellezés sikerét elsődlegesen az határozza meg, hogy milyen minőségű tanító adatbázist sikerül felépítenünk. Maga a kérdés a következő: tudunk-e olyan adatokat összegyűjteni, amelyek alapján választ kaphatunk a kérdéseinkre. Ha olyan adatokat gyűjtünk össze, melyek nem relevánsak az adott problémával kapcsolatban, akkor az adatelemzés kudarcra van ítélve. Sokszor a helyzet még bonyolultabb, mivel magát […]
Fiktív cégek a magyar gazdaságban
Napjainkban fiktív cégekről igen gyakran lehet olvasni a hazai sajtóban. Annak ellenére, hogy széles körben használják ezt a kifejezést, igen nehéz pontos definíciót találni rá. Fiktív cégek alatt általában olyan cégeket értünk, melyek nem végeznek valós gazdasági tevékenységet, és elsődlegesen pénzmosás céljából jönnek létre. Maga a pénzmosás természetesen nem egy lokális probléma, világszinten 2.000 Mrd […]
Egyszerű adattisztítást mindenkinek!
Az adatbányászatról sokan, sok helyen elmondták már, hogy az adat előkészítése a munka 80%-a, ennek pedig legalább a fele (ha nem több) az adatok egységes és értelmes formára hozása, azaz tisztítása. Ezzel a problémával mi is rendszeresen megküzdünk, ugyanis minden cégnek más hibák fordulnak elő az adataiban. Ezek a hibák lehetnek konkrét elgépelések is (Nagy […]
Ki volt az első adatbányász?
Ki volt az első adatbányász? Az adatelemzés napjainkban egy kulcsfontosságú terület. Cégek, befektetők, sportklubok, webáruházak naponta dolgoznak fel és elemeznek adatokat. Már a 60-as években megjelentek az első statisztikai programok, de az adatelemzés széles körű elterjedését a 90-es évek közepén megjelenő adatbányászati szoftverek tették lehetővé. A 90-es évektől kezdődően egy új elemzési iparág jött létre […]
R-re érdemes volt áldozni egy szombat...
Szeptember 3-án került megrendezésre az első satRday konferencia, aminek célja hogy alkalmat adhasson elérhető árú, színvonalas R-rel kapcsolatos információgyűjtésre, tapasztalatcserére. Ezt a konferenciát mi mint Ezüst szintű szponzor támogattuk, illetve előadást is tartottunk a délelőtt folyamán. A program tutorialokkal indult, amik közül meglehetősen nehéz volt választani. Végül azt tudtuk meg, hogyan lehet komoly, kész weboldalak […]
Néhány trükk – hogyan tegyük a ...
Sokszor teszik fel nekem a kérdést, hogy egy CRM rendszer mitől lesz sikeres? Nos ez tipikusan az a kérdés, amire nincs egy pontos, egzakt válasz. Többek közt azért, mert maga a CRM rendszer definíciója sem egyértelmű. Ha CRM rendszerre mint egy értékesítés támogató rendszerre tekintünk, akkor is nehéz pontosan megmondani a sikeresség fő okait. Carl […]
Andego “csődveszélyben”
Egy cég életében mindig jelentős mérföldkő, amikor költözésre kerül sor. Ennek persze sok oka lehet. Jelentheti azt, hogy a cég költség racionalizálás keretében egy olcsóbb könyékre költözik, jelentheti azt, hogy a cég anyagi gondokkal küzd, és nem tudja fizetni a bérleti díjat, de jelentheti természetesen ennek az ellenkezőjét is, azaz költözhet a cég azért is, […]