Az elmúlt hónapban számos felméréssel találkoztam hazai és nemzetközi IT fizetésekről. Az egyik ilyen felmérésről be is számoltam néhány hete, azon az látszott hogy a hazai fizetések egyelőre még a régiós átlagtól is elmaradnak (https://tomazweiss.github.io/blog/r_stackoverflow_survey/). Ha van lehetőségem, akkor szeretem az eredeti kutatási anyagot megnézni (sokszor találkoztam silány, szakmailag hibás fordítással). Nos a kutatás oldalán […]
Posts by
A rosszat tudod javítani – a jó...
Nagyjából 2 éve vagyok Spotify előfizető. Azóta kitárult előttem egy olyan zenei spektrum, amiről korábban nem is álmodtam! Éppen ezért imádom ezt az alkalmazást. És gyűlölöm is. Legalábbis a heti válogatás funkcióját (“E heti kaland”). Ez egy dallista, amit minden héten a Spotify állít össze zenei ízlésem alapján. Nos, ez a funkció borzasztóan funkcionál. Szinte […]
Mihez is ért a Data Scientist?
Mihez ért a Data Scientist? Nem könnyű kérdés. Vannak persze kutatások arról, hogy a Data Scientist szakemberek milyen elemző eszközöket használnak, ami kiindulásnak nem rossz. Elég biztosan kijelenthető, hogy jelenleg a Python számít a legnépszerűbb adatadatelemző eszköznek, ezt mutatja KDnuggets két legfrissebb kutatása is. Az egyik szerint a Pythont a Rapidminer és az R követi (itt […]
Adatok hulladékgazdálkodása
Napjaink egyik legfontosabb témája a környezetvédelem, nap mint nap érkeznek sokkoló képek szeméthegyekről, tönkretett tájakról. Hulladékkezelés és feldolgozás nélkül talán már bele is fulladtunk volna ezekbe a szeméttengerekbe. Na de miért is jutott ez eszembe egy adatbányászat blog írása közben? Nos az adatokkal se állunk jobban: percről percre keletkeznek TB-nyi új adatok, úgy hogy ezen […]
Adatbányászok doppingja
Egy korábbi blog bejegyzésben (Kaggle átok) szó volt arról, hogy a Kaggle versenyeknek “köszönhetően” háttérbe szorult a túltanulás ellenőrzése és kezelése. Pedig ez egy valós veszély, mivel minden elemzőnek elsődleges célja a minél jobb modell építése, akár túltanulás árán is. Kicsit hasonlít a helyzet az élsportra. Ott is a teljesítmény hajszolása a cél, nagy a […]
Létezik prediktív modell? Avagy mit c...
Az adatelemzés az elmúlt 20 évben többször is átalakult, voltak sikeres és kevésbé sikeres alkalmazásai az üzleti életben. Sikeres történetek egyike a prediktív modellek megjelenése. És ez nem is csoda, hiszen mióta az ember öntudatra ébredt, és érzékeli az idő múlását, azóta foglalkoztatja a jövővel kapcsolatos kérdések. Filozófusok évszázadok óta vitatkoznak azon, hogy a jövőbeli […]
Kaggle átok
A 2010-ben alapított Kaggle a világ legnagyobb adatbányász közössége, 2017-re elérte a bűvös 1.000.000 regisztrációs számot. Az alapvetően adatbányászati versenyeket szervező oldalt a Google ugyanebben az évben vásárolta fel, nem titkoltan abból a célból, hogy innen vadássza le a legjobb adatelemzőket. Kaggle vitathatatlan érdeme, hogy katalizátor szerepet tölt be az adatelemzése széles körű elterjedésében. Mégis […]
Felvásárolt minket a Clementine
Az Andego Tanácsadó Kft. életében jelentős változás történt idén. Rengeteg olyan új ötletünk van amit szeretnénk megvalóstani, de ezek végrehajtása meghaladja cégünk jelenlegi erőforrásait. Két út állt előttünk: erőteljes bővülésbe kezdünk egy stratégiai szakmai partnert keresünk, akivel közösen folytatjuk ezeket a fejlesztéseket. Ez utóbbi mellett döntöttünk. Az önállóságunkat feladtuk annak ellenére, hogy 2018-ban az Andego […]
Futball Vb margójára
A világ egyik legnagyobb befektetési és pénzügyi tanácsadó cége a Goldman Sachs szakértői adatbányászati módszerekkel próbálták előrejelezni a 2018-as futball-vb eredményeit. Az előrejelzésnél minden elérhető adat rendelkezésre állt a csapatokról és a játékosokról, és ezeken a napjainkban olyannyira népszerű mesterséges intelligenciát alkalmazták az eredmények megtippeléséhez, mégis az előrejelzés kudarcot vallott, a gép által tippelt eredmények […]
Amikor a mintavételezés a probléma
A prediktív modellezés sikerét elsődlegesen az határozza meg, hogy milyen minőségű tanító adatbázist sikerül felépítenünk. Maga a kérdés a következő: tudunk-e olyan adatokat összegyűjteni, amelyek alapján választ kaphatunk a kérdéseinkre. Ha olyan adatokat gyűjtünk össze, melyek nem relevánsak az adott problémával kapcsolatban, akkor az adatelemzés kudarcra van ítélve. Sokszor a helyzet még bonyolultabb, mivel magát […]