Válogatott webhelyek ingyenes leckékkel a big data tanulmányozásáról.

Könyvjelzőkhöz

átlagos fizetés adatelemzés a HeadHunter szerint - 120 ezer rubel. Az anyag kiemeli az alapvető követelményeket az adatelemzők üres állásaival szemben, valamint azokat a helyeket, ahol ingyenesen szerezhet készségeket ezen a területen.

Kik az adatelemzők

A big data tudósok tudják, hogyan kell kinyerni hasznos információ különböző forrásokból, és elemezze, hogy üzleti döntéseket hozzon. Az elemzők általában eltérő információkkal szembesülnek, ezért fontos a megfelelő adatok kinyerése.

Most az adatelemző szakmát a világ egyik legvonzóbbnak és legígéretesebbnek tartják. Ahhoz, hogy jó elemző lehessen, többet kell tudnia a statisztikákról, mint a programozásról. Mivel a munka során matematikai modelleket kell felépítenie, amelyek leírják a problémát és a tényleges adatokat.

Egy adatelemző véletlenszerű változókkal és valószínűségi modellekkel dolgozik, feladata váratlan minták megtalálása. Ezért a valószínűségi elmélet és a matematikai statisztika ismerete az egyik fő követelmény a jelentkezők számára.

Ismernie kell az R vagy Python programozási nyelveket, és meg kell értenie a nagy adatfeldolgozási technológiákat. Ez a tudás elegendő az adatelemző kezdeti pozíciójához.

Ahhoz, hogy jó elemző lehessen, nemcsak a programozást vagy a statisztikákat kell megértenie, hanem tökéletesen ismernie kell a terméket, és ami a legfontosabb, képesnek kell lennie hipotézisek tesztelésére és javasolására. A nagy adat, ha helyesen használják, rengeteg jó ötletet és ötletet tartalmaz a termék fejlesztésére vagy a fontos dolgok meghatározására vonatkozóan.

De a legtöbb problémának nincs egyértelmű megoldása vagy algoritmusa: ebből a szempontból az adatelemzés nagyon kreatív munka. Az is fontos, hogy tudjunk megfelelő megjelenítést választani. Ugyanazok az adatok véletlenszerű ponthalmaznak tűnhetnek, vagy sok érdekes dolgot mondhatnak el, ha helyesen végzik.

A VKontakte -nál hatalmas adatmennyiséggel dolgozunk - napi több mint 20 milliárd méréssel. Információkat gyűjtünk a Hadoop -fürtről, és különféle eszközöket használunk a feldolgozásra: válaszok egyszerű kérdések A Hive ad nekünk, a Spark, a Pandas és a Sklearn pedig segítenek a bonyolultabb elemzések elvégzésében.

A termék- és műszaki mutatók, valamint az A / B kísérletek elemzéséhez a csapatunk által kifejlesztett adatgyűjtő, összesítő és megjelenítő rendszert is felhasználjuk. Az adatelemzésnek köszönhetően naponta több tucat termékhipotézist ellenőrzünk, és több száz kísérletet hajtunk végre, amelyek lehetővé teszik számunkra, hogy folyamatosan javítsuk a terméket, kényelmesebbé és személyre szabottabbá tegyük szolgáltatásainkat.

Például 2015 -ben elkezdtük elemezni a felhasználói tevékenységet a hírfolyamban, és megnéztük, mit lehetne javítani. Sok kutatás után arra a következtetésre jutottunk, hogy mindent sokkal kényelmesebbé tehetünk, és 2016 -ban elindítottunk egy „okos” hírcsatornát, amely minden felhasználó számára a lehető legérdekesebb és hasznosabb.

Folyamatosan elemezzük a közönség aktivitását. Valamikor, a gyakorlatban felfedeztük, hogy a felhasználók szeretnék bővíteni érdeklődési körüket, és új szerzőkkel találkozni. Ezért 2017 -ben elindult az "Ajánlások" szakasz. És most, az új szolgáltatás növekvő aktivitását elemezve látjuk, hogy ez volt a helyes döntés.

Andrey Zakonov

Növekedési és kutatási igazgató, VKontakte

Python és R. ismerete

Python tanfolyam

Nyelv: Angol.

Szint: a kezdeti.

Codecademy felület

A Codecademy online platform interaktív tanulást kínál a Pythonról: egy oldal elmagyarázza a rövid elméleti hátteret és a kód értelmezőjét. A tanfolyam kezdő felhasználók számára készült, és a programozási nyelv alapvető parancsairól szól.

A tanfolyam megosztott programmal történik: csak fizetett előfizetéssel férhet hozzá tesztfeladatokhoz és dolgozhat projekteken. Az ingyenes leckék alkalmasak egyszerű konstrukciók elsajátítására és a nyelv szintaxisának megértésére.

Önálló tanulási útmutató "Python 3 kezdőknek"

Nyelv: Orosz.

Szint: a kezdeti.

Musin önképzőkönyve az egyik legnagyobb orosz nyelvű tudásbázis a Pythonról. Az oldal információkat tartalmaz a modulokról, a Pandas könyvtár használatával végzett adatelemzéssel kapcsolatos anyagokat, elméleti információkat, példákat a feladatokra és Hasznos Linkek... A megjelent cikkek alapján önálló tanulmányi útmutató is készült PDF formátumban.

Python programozó tanfolyam

Nyelv: Orosz.

Szint: a kezdeti.

A tanfolyamon a tanárok bemutatják a programozás alapfogalmait. Nagy mennyiségű házi feladatot kínálnak gyakorlati feladatok- minden döntést egy automatikus rendszer ellenőriz. Ugyanakkor a tanárok nem adnak egyéni konzultációk... A tanfolyam fokozott komplexitású feladatokat is tartalmaz, amelyeket nem kell megoldani a tanfolyam sikeres elvégzése érdekében.

Python alapismeretek és alkalmazások kurzus

Nyelv: Orosz.

Szint: átlagos.

Követelmények: alapvető programozási ismeretek Python vagy más programozási nyelveken.

A kurzus hallgatói megtanulják a nyelv alapvető alapjait: hogyan hajtja végre a tolmács a kódot, hol tárolja a változókat és adatokat, hogyan határozzák meg saját adattípusait és funkcióit. A tanfolyam azoknak a felhasználóknak készült, akik ismerik az alapvető programozási ismereteket.

A kurzus tesztfeladatai két típusra oszlanak: az anyag megszilárdítására és a megtanult készségek alkalmazásának módjának megtalálására. A megoldásokat a rendszer ellenőrzi.

Python programozási alapok tanfolyam

Nyelv: Angol.

Szint: a kezdeti.

A tanulók három alapvető témát tanulnak meg: a funkciók használata, az osztályok létrehozása és használata. Az utolsó lecke saját projektek létrehozásáról szól. A tanulás a mini-projekteken és a fontos fogalmak elsajátításán alapul. A tanfolyam azoknak szól, akik programozók akarnak lenni, vagy terveznek velük dolgozni.

R Programozás alapjai tanfolyam

Nyelv: Orosz.

Szint: a kezdeti.

Ezen a tanfolyamon a pedagógusok az R programozási nyelvnek tekintik, nem pedig problémamegoldó eszköznek. A diákok feltárják az alapvető adattípusokat és az általános szemantikai szabályokat, valamint az adatelemzéssel és -feldolgozással kapcsolatos témákat.

Adatelemzés az R tanfolyamon

Nyelv: Orosz.

Szint: átlagos.

Követelmények: alapismeretek a statisztikában.

A tanárok elmagyarázzák az adatelemzés főbb állomásait az R nyelv használatával, a diákoknak pedig a főbb szakaszokat Statisztikai analízis R, adatok olvasása és előfeldolgozása, alapvető statisztikai technikák alkalmazása és az eredmények vizualizálása.

R Programozás az adattudományi tanfolyamon

Nyelv: Angol.

Szint: átlagos.

Követelmények: A tanfolyam azoknak az elemzőknek szól, akiknek statisztikai projekteken dolgozniuk kell.

A tanfolyamot a Microsoft fejlesztette ki a Dán Műszaki Egyetemmel együttműködve. A tanfolyam megtanítja az R alapjait, megtanítja, hogyan kell olvasni és írni adatokat, dolgozni velük és eredményeket elérni. Azt is elmagyarázzák, hogyan lehet prediktív elemzést végezni az R segítségével, és megjeleníteni az adatokat.

DataCamp projekt

Nyelv: Angol.

Szint: a kezdeti.

DataCamp Learning System Interface

A DataCamp interaktív R és Python tanulási tanfolyamokat kínál természettudományos, statisztikai és gépi tanulási témákban. A projekt az adatok feldolgozására összpontosít. A DataCamp együttműködik az RStudio -val, a Continuum Analytics -szel, a Microsofttal, és vonzza a Pfizer, a Liberty Mutual, a H2O, a DataRobot és mások vezető cégeinek tanárait.

Az ingyenes előfizetés hozzáférést biztosít az alap tanfolyamokhoz és a fizetős kurzusok első fejezetéhez. A korlátlan hozzáférés érdekében előfizetést kell vásárolnia havi 29 dollárért vagy évi 300 dollárért.

A statisztika és a gépi tanulás ismerete

Statisztika alapjai tanfolyam

Nyelv: Orosz.

Szint: a kezdeti.

A kurzus tanulmányozza a kutatás során szerzett adatok leírásának módszereit, a statisztikai elemzés alapfogalmait, a kapott adatok értelmezését és megjelenítését. A fő hangsúly a matematikai elképzeléseken, az intuíción és a logikán van, amelyek meghatározzák a módszereket és a számítási képleteket.

Tanfolyam „Algoritmusok: elmélet és gyakorlat. Módszerek "

Nyelv: Orosz.

Szint: átlagos.

Követelmények: az egyik programozási nyelv ismerete: hurkok, tömbök, listák, sorok.

A kurzus alapvető algoritmikus módszereket ölel fel: "mohó" algoritmusok, "oszd meg és hódítsd" módszer, dinamikus programozás. A tanárok minden módszer esetében matematikai bizonyítékot mutatnak a helyességre és a munkaidő becslésére.

Szintén a kurzuson beszélnek az algoritmusok C ++, Java és Python megvalósításának jellemzőiről. A kurzuson tárgyalt algoritmusok többségét a feladatok részeként kell programozni.

Bevezetés a leíró statisztika tanfolyamba

Nyelv: Angol.

Szint: a kezdeti.

A tanfolyam résztvevői megismerkednek az adatok leírásához használt alapvető fogalmakkal. A tanárok a kutatási módszerekről beszélnek, megtanítják a statisztikai értékek kiszámítására és értelmezésére, valamint egyszerű valószínűségek kiszámítására. A diákok megtanulják az elosztás törvényeit és annak manipulálását, hogy valószínű adat -előrejelzéseket hozzanak létre.

Bevezetés a statisztikai következtetési tanfolyamba

Nyelv: Angol.

Szint: a kezdeti.

Követelmények: Befejezte a Bevezető a leíró statisztikába tanfolyamot.

A tanfolyam a nem nyilvánvaló adatok kimenetének tanulmányozására szolgál. A diákok a mintastatisztikák segítségével tanulmányozzák a paraméterbecslést, megtanulják a hipotézisek és a megbízhatósági intervallumok tesztelését. Az oktatók elmagyarázzák a t-tesztet és a variancia, korreláció és regresszió elemzését, valamint a statisztikai hipotézisek tesztelésének egyéb módszereit.

Bevezetés az adattudományi tanfolyamba

Nyelv: Angol.

Szint: átlagos.

Követelmények: Alapvető Python programozási készségek.

A tanfolyam résztvevői elsajátítják az adattudomány alapfogalmait: adatkezelést, statisztikai és gépi tanulási módszereket használó adatelemzést, információátvitelt és vizualizációt, valamint nagy adatokkal való munkát.

Bevezetés a Gépi Tanfolyamba

Nyelv: Orosz.

Szint: átlagos.

Követelmények: a matematika alapjainak ismerete (függvények, származékok, vektorok, mátrixok), programozási ismeretek Pythonban.

A kurzus a gépi tanulással megoldott főbb problémákat vizsgálja: osztályozás, regresszió és klaszterezés. A diákok megtanulják, hogyan kell értékelni a modellek minőségét, és eldönteni, hogy egy modell alkalmas -e egy adott feladatra. A tanárok a modern könyvtárakról fognak beszélni, amelyekben a tanulmányozott modelleket és módszereket alkalmazzák minőségük felmérésére.

Adattudomány: vizualizációs tanfolyam

Nyelv: Angol.

Szint: a kezdeti.

A tanfolyam az adatok megjelenítésének és a keresési adatok elemzésének alapjait tanítja. A diákok megtanulják, hogyan kell használni az R csomagot ggplot2 egyéni ábrák létrehozásához. A tanár elmondja az adatok kezelésével kapcsolatos főbb hibákat is.

Tanfolyam "Bevezetés a mesterséges intelligenciába"

Nyelv: Angol.

Szint: a kezdeti.

Követelmények: A gyakorlati laboratóriumok a Microsoft Azure-on alapulnak, és az Azure-előfizetést igényelnek.

A diákok megtanulják, hogyan kell használni a gépi tanulást prediktív modellek készítéséhez. A tanfolyam oktatói megmondják, melyiket szoftver elengedhetetlen a természetes nyelv, képek és videók feldolgozásához és elemzéséhez. Továbbá a diákok megtanulják, hogyan kell intelligens csevegőrobotokat létrehozni.

Gépi tanulási tanfolyam

Nyelv: Angol.

Szint: a kezdeti.

A kurzus hallgatói megismerik a hatékony gépi tanulási módszereket, és gyakorlati készségeket szereznek azok megvalósításában. Emellett a tanárok is beszélni fognak legjobb gyakorlatok Szilícium -völgy a gépi tanulásban és a mesterséges intelligenciában.

A tanfolyam széles körű bevezetést nyújt a gépi tanuláshoz, az adatbányászathoz és a statisztikai modellfelismeréshez. A tanfolyam esettanulmányokra és gyakorlati tapasztalatok- A diákok megtanulják, hogyan kell tanulási algoritmusokat használni "intelligens" robotok készítéséhez, szövegek elemzéséhez, számítógépes látás, orvosi informatika, audio, adatbázis -bányászat és más területek ismereteinek megszerzéséhez.

Nagy adatfeldolgozás

A „Hadoop. Rendszer nagy mennyiségű adat feldolgozására "

Nyelv: Orosz.

Szint: átlagos.

A Hadoop az egyik legnépszerűbb nyílt forráskódú rendszer nagy mennyiségű adat feldolgozására. A rendszer felhasználói között vannak a Facebook, a Twitter, a Yahoo!, A Bing, a Mail.ru. A diákok megtanulják a nagy mennyiségű adat tárolásának és feldolgozásának alapvető módjait. Továbbá a tanfolyam hallgatói megtanulják, hogyan fejleszthetnek alkalmazásokat programmodell MapReduce.

Bevezetés a Hadoop és a MapReduce tanfolyamba

Nyelv: Angol.

Szint: átlagos.

Speciális követelmények

A diákok elsajátítják a Hadoop -val való munka alapjait, és megtanulják, hogyan kell használni a nagy adatokkal való munkavégzéshez. Az oktatók elmondják, milyen problémákat old meg a Hadoop, elmagyarázzák a HDFS és a MapReduce fogalmát. A tanfolyam végén a hallgatók megtanulják, hogyan kell programokat írni a MapReduce segítségével, és tapasztalatokat szereznek a problémák önálló megoldásában.

Adatok átalakítása a MongoDB tanfolyam segítségével

Nyelv: Angol.

Szint: átlagos.

Speciális követelmények: Alapvető Python programozási készségek.

Az adatátalakítás az adatok tisztításának folyamata, hogy később könnyebb legyen velük dolgozni. Eddig egyes tudósok erre költenek a legtöbb idő. A kurzus hallgatói megtanulják, hogyan kell adatokat gyűjteni és kinyerni a széles körben használt formátumokból. A diákok megtanulják, hogyan kell értékelni az adatok minőségét és tanulni legjobb gyakorlatok adattisztítás a MongoDB segítségével - az egyik vezető NoSQL adatbázis.

Nagy adatokkal való munka

UCI gépi tanulás

Az erőforrás 425 adatkészletet támogat a szoftverközösség számára gépi tanulás... A szolgáltatás kiváló minőségű, valós és érthető gépi tanulási adatkészleteket kínál, amelyek segítségével gyakorolhatja a gépi tanulási technikákat.

Kaggle

A platform versenyeket kínál minden készségű kutató számára, ahol szilárd és releváns adatokon tesztelhetik modelljeiket. A Kaggle pénzjutalmat biztosít a legjobb megoldásért.

KDnuggets lista

A KDnuggets az egyik vezető webhely az üzleti intelligencia, a big data, intelligens elemzés, adattudomány és gépi tanulás. A projekt szerzői egy oldalon 78 nyílt forrású adatforrást gyűjtöttek össze feldolgozásra.

Joe Rickert listája

Joe Riker rendszeresen közreműködik az R közösségben. Összeállította azoknak a webhelyeknek a listáját, ahol az R rendszerben elemzésre nyitott adatokat találhat.

Megkértük Diana Borisovát, a Sberbank Technologies Supermass Data Competence Center informatikai mérnökét, hogy véleményezze a listát, és meséljen nekünk más tetsző tanfolyamokról.

Önképzési könyv Python 3 kezdőknek- nagyszerű leckék. Az anyag röviden és a témában van lefektetve. Ezt az oldalt nemcsak kezdő programozók, hanem tapasztalt srácok is használják.

Jól "Python programozás" alkalmas a Python tanulását kezdő emberek számára. Van egy hely, de nem a legjobb. Az alapokat sokáig elmondják - jobb, ha az oktatóanyaghoz fordul.

A profik közül - a feladatok fejlesztik az algoritmikus gondolkodást, mínusz - nem a legoptimálisabb megoldás néhány problémára (bizonyos funkciók ismerete 15 helyett két sorban megoldható).

O A Python alapjai és alkalmazásai sok jó véleményt hallottam. Kezdőknek nehéz lesz. Ezért inkább azok számára alkalmas, akik ismerik az alapokat.

"R programozás alapjai"- jó tanfolyam azoknak, akik elkezdik tanulni R. Világos és strukturált prezentáció, vannak gyakorlati feladatok, figyeljen a fontos részletekre.

Jól "Adatelemzés R -ben" klassz tanár tanítja, és a tanfolyam is kiváló. A matematikai statisztika és a programozás alapjainak tanulmányozása után R, ez a kurzus kötelező

"A statisztika alapjai" nagyszerű tanfolyam kezdőknek. Az elmélet egyszerű és érthető példákban kerül bemutatásra anélkül, hogy bizonyítékokba merülnénk, és rengeteg képlet nélkül. A gyakorlat segít megszilárdítani az elméletet.

Jól „Algoritmusok: elmélet és gyakorlat. Módszerek " a programozási elmélet jó bemutatásáról ismert Számítástechnikai Központ szervezte. Alexander a központ egyik legjobb tanára.

A tanfolyam azoknak való, akik már rendelkeznek némi algoritmus ismerettel. Gyakorlati feladatok segít az anyag megszilárdításában, egyes feladatokon hosszabb ideig kell ülnie.

Jobban, mint Andrej Raigorodsky - a tanfolyam tanára - senki sem fogja megmagyarázni ezt a témát. Mindent felrág, világos példákat hoz. A tanfolyam mindenképpen megéri a figyelmedet.

A statisztika alapjai után tovább mélyítheti ismereteit ebben a témában, és elvégezheti a második tanfolyamot. Anatolij Karpov a lehető legegyszerűbben és legegyszerűbben mutatja be az anyagot.

Egy másik nagyszerű tanfolyam a Bioinformatikai Intézetből. Kezdők számára ez egy kicsit trükkös lehet. De a tanfolyam mindenképpen megéri a figyelmedet.

Az oldal segít megtanulni a Python programozásának alapjait. A munka közvetlenül a böngészőben történik. Először is olvassa el a cikket, majd sok gyakorlati problémát old meg a könnyű szinttől a nehézig.

Tanfolyam jó értékeléssel. Azt gondolom, hogy azoknak, akiknek béna matematikai apparátusuk van, a tanfolyam kötelező. Nincs jobb, mint az elmélet a gyakorlattal kombinálva.

Diana Borisova

IT mérnök a Sberbank-Technologies szupermasszív kompetenciaközpontban


A munkáltatók felmérésének eredményei azt mutatják, hogy a Big Data szakemberek a vállalatok 6% -ában dolgoznak. A Big Data elemzők iránti fő keresletet informatikai és távközlési cégek, bankok és nagy kiskereskedelmi láncok alkotják.

Kérdés: "Vannak cége szakemberei a big data tömbök elemzésében (Big Data, Data Scientist)?"

Lehetséges válasz Minden tevékenységi terület IT / távközlés Bankok Kiskereskedelem
Igen 6% 21% 17% 13%
Nem 75% 60% 50% 45%
Tanácstalan vagyok válaszolni 19% 19% 33% 42%

A nagyvállalatok képviselői észrevételeikben megjegyzik, hogy a big data elemzés fontos üzletág.

„A Big Data elemzői a Digital divízió részei. Ez stratégiai irány számunkra, közvetlenül engedelmeskedik vezérigazgatójának... Kevesebb mint egy éve hoztak létre egy alosztályt ebben a formátumban. Üzletünk hatalmas mennyiségű adat megszerzéséhez kapcsolódik, ezért az elemzés nagyon fontos számunkra. Nagyon erős csapatunk és nagyon ambiciózus feladataink vannak ” - mondja a távközlési szolgáltató képviselője.

„Körülbelül 15 irányunk / projektünk van a bankban, ahol ilyen szakemberekre van igény. Minden projekthez saját szakemberekre van szükség, és különböző adatokat elemezhetnek ” - kommentálta egy nagy kereskedelmi bank toborzója.

A toborzók számos nehézséget észleltek a big data elemzők toborzásában, amelyet a képzett személyzet hiánya és a kompetenciák értékelési kritériumainak hiánya okozott: „Nehéz felmérni a képesítések és a szakértelem szintjét. Nagyon magas követelményeink vannak. Többlépcsős kiválasztást végzünk, több szakaszból álló interjúval, analitikai képességeket ellenőrző tesztekkel. Magasan nagyszámú a jelölteket kizárják. "

„Mindannyian szeretnénk már kialakult szakembereket, akik sikeres ügyeket hajtottak végre, de nincs sok ilyen a piacon. Nehéz meghatározni egy személy szintjét, mert a feladatok különbözőek, nem teljesen világos, hogy a tapasztalata megfelelő lesz -e számunkra ” - teszi hozzá egy nagy kereskedelmi bank képviselője.

A toborzással kapcsolatos problémák egyre nőnek, mivel nincs közös neve a big data elemzők munkájának, és nem áll rendelkezésre szabványos munkakör.

A nagy adatokkal végzett munkát jelentő állásoknak teljesen más nevei lehetnek, például: big data elemző; matematikus / matematikus-programozó; rendszerelemző menedzser; big data építész; üzleti elemző; BI elemző; információelemző; Adatbányászati ​​szakember; gépi tanulási mérnök.

A Big Data szakemberek két területre oszthatók:
A Big Data mérnökei nagyobb felelősséggel tartoznak az adatok tárolásáért, átalakításáért és gyors hozzáférésükért;
A Big Data elemzők feladata a big data elemzése, a kapcsolatok azonosítása és a modellek felépítése.

V munkaköri kötelességek A Big Data elemzés a következőket tartalmazza:

Adatgyűjtési folyamat kiépítése a későbbi operatív feldolgozás lehetőségére;
a fogyasztói magatartás elemzése és előrejelzése, az ügyfélkör szegmentálása (csoportosítás, osztályozás, modellezés, előrejelzés);
a termékkínálat személyre szabása;
a belső folyamatok és működési tevékenységek hatékonyságának elemzése;
a jelenlegi folyamatok optimalizálására szolgáló megoldások kidolgozása az elemzés eredményei alapján;
kockázatok elemzése, gyanús tranzakciók, csalások felderítése;
a különböző forrásokból (többcsatornás értékesítés, marketing, internet) származó adatok teljességének és összekapcsolhatóságának biztosítása;
időszakos jelentések készítése az eredmények értékelésére, az adatok megjelenítésére és bemutatására.

A Big Data elemzői fizetések és szakmai készségeik követelményei

Fizetési tartomány A szakmai készségekre vonatkozó követelmények és kívánságok
- Felsőoktatás(matematika, matematikai statisztika)
- Matematikai statisztikai módszerek, adatelemzési és matematikai modellezési algoritmusok ismerete
- Tudás modern technológiák nagy adatfeldolgozás
- A relációs adatbázisok és az SQL nyelv alapjainak ismerete
- Tudás angol nyelvű a műszaki dokumentáció olvasásának szintjén
80-110 ezer rubel. - Kiváló elemzőkészség, képesség a problémák megoldásának új módszereire
- Az SPSS, R, MATLAB, SAS Data Miner, Tableau statisztikai eszközök birtoklása
- A statisztikai adatelemzés módszereinek mély ismerete, konstrukció matematikai modellek(neurális hálózatok, bayesi hálózatok, klaszterezés, regresszió, faktoriális, variancia- és korrelációs elemzések stb.)
- Nagy adathalmazokkal, relációs adatbázisokkal kapcsolatos tapasztalat
- Tapasztalat nagy mennyiségű adat elemzésében a függőségek és minták azonosításával
- Adatábrázoló eszközökben szerzett tapasztalat (beleértve a grafikonok készítését is)
- Big Data elemzőként szerzett munkatapasztalat legalább 1 év
- Python / Ruby / Perl programozási nyelvek ismerete
- Gépi tanulási tapasztalat
- Hadoop, Google nagy asztal használatának tapasztalata
- Big Data elemzői tapasztalat legalább 2 év

Lehetséges kívánság: folyékony vagy társalgási szintű angol nyelvtudás

- Kereskedelmi szempontból sikeres komplex viselkedés kialakításában szerzett tapasztalat célközönség adatbányászati ​​eszközök használatával
- Big Data elemzőként szerzett munkatapasztalat, legalább 3 év

Lehetséges kívánságok:
- tudományos publikációk rendelkezésre állása a Big Data területén;
- tapasztalat a Big Data rendszerrel való együttműködésben

Blog beágyazási kódja

Big Data elemző

A Superjob portál kutatóközpontja tanulmányozta a munkaadók javaslatait és a moszkvai "Big Data Analyst" pozícióra jelentkezők elvárásait.

  • Elavult adatok
  • Az adatok betöltésének szakaszában számos kérdésben segíthet egy olyan termék, mint például a különböző forrásokból származó adatok kombinálása, gazdagítása és előkészítése az üzleti intelligencia rendszerekben való használatra.

    Adatelemzés

    Rendelkezik már megfelelő mennyiségű releváns és fontos adatgal? Most a tárolás mellett elemezni kell őket. Az adatelemzés segít számos üzleti kérdés megválaszolásában, megalapozott döntések meghozatalában, az ügyfél „látásában”, a raktári és logisztikai folyamatok optimalizálásában. Általánosságban elmondható, hogy az adatelemzés fontos és szükséges minden területen, minden vállalatnál, bármilyen szinten.

    Az adatelemző megoldás három fő blokkból áll:

    • Adattároló;
    • ETL eljárások (adatok kinyerése, átalakítása és betöltése);
    • Jelentési és vizuális elemző rendszer.

    Mindez elég bonyolultnak tűnik, de valójában nem is olyan ijesztő.

    Modern analitikai megoldások

    Mit tegyenek azok a vállalatok, amelyek nem rendelkeznek elemzői létszámmal? És nincs fejlesztő programozó? De van vágy elemzésre!

    Természetesen van megoldás. Ma már elegendő automatizált rendszer áll rendelkezésre az elemzéshez a piacon, és - ami fontos! - az adatok vizualizálása.

    Milyen előnyei vannak az ilyen rendszereknek (típus):

    • A gyors megvalósítás lehetősége (töltse le a programot és telepítse legalább a laptopjára)
    • Nincs szükség összetett informatikai vagy matematikai ismeretekre
    • Alacsony költség (havi 2000 rubeltől a 2018. márciusi engedélyért)

    Így bármely vállalat megvalósíthat egy ilyen elemző terméket: függetlenül attól, hogy hány alkalmazott dolgozik benne. A Tableau egyéni vállalkozóknak és nagyvállalatoknak egyaránt alkalmas. 2018 áprilisában az ENSZ a Tableau -t választotta elemzési platformnak a világ minden irodájában!

    Az ilyen automatizált elemzőrendszerekkel dolgozó vállalatok megjegyzik, hogy a korábban 6 óra alatt elkészített táblázatos jelentéseket a Tableau szó szerint 10-15 perc alatt gyűjti össze.

    Nem hiszel nekem? Próbálja ki Ön is - töltse le a Tableau ingyenes próbaverzióját, és kapjon oktatóanyagokat a program használatáról:

    Töltse le a Tableau -t

    Töltse le a Tableau Desktop ingyenes, teljes verzióját, 14 napig, és szerezzen be INGYENES Tableau BI oktatóanyagokat

    Az adatelemzés különböző platformjainak és eszközeinek hatalmas választéka megzavarhat minden olyan szakembert, aki a vállalati adatok fejlett elemzésén alapuló üzleti folyamat felépítésének feladatával szembesül. A gépi tanulás és a mély adatelemzés ma már nem újdonság. Ez egy kötelező elem, amely nélkül egy vállalkozás nem tud normálisan versenyezni a modern világban. Az összegyűjtött információk elemzése az üzleti teljesítmény javításának kulcsa. Ehhez azonban rendelkeznie kell az adatelemzés eszközeivel. Melyikek? Nézzük ezt a kérdést. Összeállítottuk Önnek a piacon található keretek, platformok, megoldások és fejlett elemzőrendszerek legteljesebb listáját.

    Úgy tűnik, hogy az elosztott számítástechnika alacsony költsége és a feldolgozás gyorsasága miatt a Hadoop for Big Data körülbelül olyan fontos megoldás, mint az összes többi szoftvertermék együttvéve. A nyílt forráskódú Big Data platformok minden leltára vasból született elefánttal kezdődik, de nem a Hadoop az egyetlen sarokpont.

    1 Hadoop

    A Presto támogatja az ANSI SQL -t, ami azt jelenti, hogy a JSON, ARRAY, MAP és ROW mellett szabványos SQL adattípusokat, ablakkezelési funkciókat, valamint aggregált és összesített függvényeket is használhat.

    A Hive-hoz képest a Presto hátránya: inkább a felhasználó által definiált funkciók fejlesztésében, megépítésében és telepítésében vesz részt. Ennek ellenére a Presto az egyik legjobb nyílt forráskódú motor a Big Data elemzéshez.

    7 Fúró

    9 IBM SPSS modellező

    Az IBM SPPS Modeler Platform a RapidMiner kereskedelmi versenytársa, amely alacsony belépési küszöböt biztosít a kezdők számára. A kezdők számára az érthetőséget az "autopilot" módok biztosítják. Az automatikus modellek (Auto Numeric, Auto Classifier) ​​számos lehetséges modellt sorolnak fel különböző paraméterekkel, meghatározva közülük a legjobbat. Egy kevésbé tapasztalt elemző megfelelő modellt építhet egy ilyen megoldásra.

    Az SPSS fő jellemzői a következők:

    Az SPSS felhasználói felületet folyamatosan fejlesztik, intuitívvá téve a rendszert. Az olyan egyszerű feladatok, mint a képletek létrehozása, egyáltalán nem igényelnek előkészítést. Mindezek miatt az IBM SPSS Modeler jó adatelemzési megoldás az újoncok számára.

    Az IMB SPSS Modeler minden előnyét elhomályosíthatja egy hátrány, amely elvágja a felhasználók nagy közönségét. A lényeg az, hogy ez a rendszer nem a legjobb eszköz a Big Data elemzésére. Az SPSS használatát megkönnyítő attribútumok túl korlátozottak a nagyszabású megközelítésekhez, amikor Big Data technológiákkal dolgoznak. Nagyon rossz esetekben az SPSS egyszerűen "összeomlik" a túlterheléstől.

    Ennek ellenére az IBM SPSS Modeler továbbra is népszerű a könnyű kezelhetőség és a szerény felület miatt.

    10 BÜNT

    A Qlik elemző platform teljes hozzáférést kínál a QIX asszociatív adatindexelő motorhoz, amely lehetővé teszi kapcsolatok létrehozását több információforrás között, amelyek általában a hierarchikus adatmodellekben vannak elrejtve. A "trükk" az, hogy a QIX -et a Qlik használja a többi megoldás megalkotásakor. A QIX Engine a memóriában lévő adatok oszlopos elrendezését használja a nagy teljesítményű indexelés és tömörítés érdekében. A gyakorlatban ez szabadabb formában teszi lehetővé az adatbányászatot, anélkül, hogy előre meg kellene határozni a lehetséges felhasználói lekérdezéseket. A programozók viszont gyorsabban hozhatnak létre alkalmazásokat a Big Data technológiák alapján, és a felhasználók gyorsan megkaphatják a válaszokat.

    A Qlik Analytics Platform architektúrája a következő elemeket tartalmazza:

    1. Qlik Management Console (QMC) és Dev Hub.
    2. Qlik Sense alkalmazásprogramozási felületek (API) és fejlesztői készletek (SDK).
    3. A Qlik Engine és a Qlik Sense támogató szolgáltatásai.

    A Qlik adatelemző platform analitikai alkalmazások, információs szolgáltatások vagy IoT -platformok fejlesztésére használható. A rendszer jó vizuális és interaktív képességekkel való ellátása lehetővé teszi a felhasználó számára a rendelkezésre álló adatok jobb feltárását.

    12

    Ez egy orosz fejlesztésű platform. A rendszer az adatbányászat legteljesebb módszereit kínálja. Különösen a STATISTICA Data Miner eszközöket alkalmaz az adatok előfeldolgozásához, szűréséhez és tisztításához, amely lehetővé teszi a funkciók hatékony kiválasztását a lehetséges előrejelzők százezrei közül.

    Ennek a platformnak az a jellemzője, hogy közvetlen hozzáférést biztosít az adatbázisokhoz, még explicit export / import műveletek végrehajtása nélkül is. A szoftver szinte minden szabványos fájlból képes adatokat feldolgozni, olvasni és írni. Maguk a prediktív modellek különféle formátumokban hozhatók létre (PMML, C ++, C #, Java, SAS, adatbázisban tárolt eljárások).

    A felhasználók megjegyzik, hogy a beépített adatbányászati ​​varázslónak köszönhetően, amely automatikus modellépítést végez, a STATISTICA Data Miner kiválóan alkalmas azok számára, akik nem vesznek részt szoftverfejlesztésben (például marketing elemzők). Mindazonáltal a klaszterezési módszerek széles skálája, a neurális hálózati architektúrák, az osztályozási és regressziós fák, a többváltozós modellezés, a szekvenciaanalízis, az asszociációk és a kapcsolatok erőteljes eszközzé teszik ezt a platformot egy szakértő kezében.

    Vegye figyelembe azt is, hogy a vállalat nemrégiben bemutatott egy új terméket - a STATISTICA Big Data Analytics szolgáltatást, amely, mint a neve is mutatja, kiegészíti a Big Data elemző szoftverek listáját. Ez a platform méretezhető; a MapReduce segítségével választásokat hozhat létre, kereshet a Lucene / SOLR motoron, elvégezheti a Mahout elemzést, dolgozhat a felhőben és a Natural Language Processing szöveggel. Ha pedig integrálja a STATISTICA Big Data Analytics szolgáltatást a STATISTICA Enterprise vállalati verziójával, akkor lehetővé teszi a Big Data elemzések vállalati szintű megvalósítását.

    13 Informatica intelligens adatplatform

    Az Informatica fejlesztését "virtuális adatútnak" nevezi. Az Informatica Intelligent Data Platform intelligens és vezérlési szolgáltatásokat nyújt, amelyek a legnépszerűbb adatokkal és formátumokkal működhetnek együtt: web, közösségi hálózatok, gépnaplók.

    Ez az intelligens adatelemző platform magában foglalja a Vibe nevű virtuális motort, amely egyszer integrálja a leképezett adatokat, majd több környezetben futtatja azokat. A STATISTICA Data Minerhez hasonlóan az Informatica IDP is drag-and-drop felületen alapul, vagyis a felhasználónak csak a szükséges elemeket kell a munkakörnyezetbe húznia, és minden utasítást a rendszer generál automatikusan.

    Az Informatica intelligens adatplatform fő jellemzője a strukturált, félig strukturált és strukturálatlan adatok azonos szemantikai hullámhosszon történő bevitelének módja. Az adatok közötti megértés lehetséges a térképészeti megközelítések, a heurisztika és a mintaegyeztetés révén.

    A Big Data elemzés egyik vezető szereplőjeként besorolt ​​Informatica büszke arra, hogy ő az egyetlen platform, amely a Gartner és a Forrester díjait kapta szinte minden adatkezelési kategóriában.

    Az Informatica intelligens adatplatform építészeti szempontból három rétegből áll:

    1. A Vibe a fent említett motor bármilyen típusú adat kezelésére. Mivel a Vibe ma már beágyazott motor, helytől és formátumtól függetlenül mindenki számára elérhetővé teszi az adatokat. Mivel a Vibe virtuális gépként fut, a motor bármilyen helyi szerverplatformon, Hadoop -fürtön vagy felhőszolgáltatáson futhat.
    2. Adatinfrastruktúra. Az infrastruktúra adatrétege a Vibe virtuális gép felett helyezkedik el. Ez magában foglalja az összes olyan szolgáltatást, amelynek célja a tiszta, biztonságos és összekapcsolt adatok bármilyen méretben történő folyamatos szállításának automatizálása bármilyen platformra, Hadoop -fürtbe vagy felhőszolgáltatásba.
    3. Adatintelligencia. Az intelligens adatréteg az adatinfrastruktúra tetején helyezkedik el. Metaadatokat, szemantikai adatokat és egyéb információkat gyűjt a platformon keresztül. Az adatok összegyűjtése után a Data Intelligence szegmentálja azokat, hogy megkönnyítse a további feldolgozást. Ennek a rétegnek az a szerepe, hogy módszereket biztosítson a Big Data feldolgozásához. Valós időben elemzésről, üzleti intelligenciáról (BI) és operatív intelligenciáról (OI) beszélünk. A közelmúltban a Data Intelligence gépi tanulással bővítette az Informatica IDP „készségeinek” listáját.

    Tehát az Informatica adatelemző platformjának fő jellemzői egy hibrid szerkezet, amely lehetővé teszi bármilyen alkalmazás csatlakoztatását bármilyen eszközhöz, az adatok szisztematikus és globális jellege, valamint az adatok demokratizálása, amely kizárja a kötelező szoftverfejlesztési készségek és bármely programozási nyelv ismerete információelemzéshez. ...

    A Data Lake feladata az adatok egyetlen adattárba tömörítése. Ez az összetevő kiküszöböli a nagy mennyiségű, eltérő információhoz kapcsolódó adatok tárolásának bonyolultságát. A Data Curator az adat -tóból származó értékeken alapul, és egységes formátumot biztosít az összes vizsgált és indexelt adatkészlethez, mind a Data Lake -ből, mind külső forrásokból. A Dell EMC szerint az adatmenedzser az adatkutató idejének akár 80% -át is megspórolja az információk elemzésre való előkészítésével. Az Adatkezelő információkat tartalmaz az adatok eredetéről, és biztosítja azok biztonságát a teljes elemzési folyamat során. Ezenkívül az adatmenedzser lehetővé teszi az adatkészletek "végpontok közötti" formátumú megtekintését és használatát.

    Összesen a Dell EMC Analytic Insights Module segítségével a felhasználó:

    • az adatok tárolása, felhasználása és indexelése egyetlen formátumban, a Data Curator segítségével;
    • megtudja az eredetet, biztosítja az irányítást és a biztonságot minden alkalmazáshoz és adattárházhoz az Adatkezelővel;
    • minden fontos információt adatközpontú alkalmazásokká és üzleti modellekké alakíthat át.

    21 Windows Azure HDInsight

    Az Azure Machine Learning nemcsak a prediktív elemzési modellek létrehozásának képességét biztosítja, hanem egy teljesen felügyelt szolgáltatást is, amelyet felhasználhat a prediktív modellek használatra kész webszolgáltatásként történő telepítéséhez.

    Minden funkciója ellenére nem mondható el, hogy az Azure Machine Learning óriási méretű pénzügyi erőforrásokat emészt fel. Mivel a szolgáltatás a nyilvános Azure -felhőn fut, nincs szükség hardver vagy szoftver önálló vásárlására.

    Talán ma az Azure Machine Learning a legjobb eszköz a gépi tanulással való munkához.

    23 Pentaho adatintegráció

    A Pentaho Data Integration (PDI) a Pentaho csomag része, amely felelős az adatok kinyeréséért, átalakításáért és kirakásáért (ETL). Annak ellenére, hogy az ETL rendszereket egy adattároló komplexum részeként kell használni, a PDI eszközök használhatók:

    • adatcsere alkalmazások vagy adatbázisok között;
    • adatok exportálása adatbázis táblákból fájlokba;
    • adattömbök betöltése adatbázisokba;
    • adatfeldolgozás;
    • integráció az alkalmazásokba.

    A Pentaho megszünteti a kódírás szükségességét, mivel a teljes fejlesztési folyamat vizuális formában történik, ami okot ad arra, hogy a PDI-ről mint metaadat-orientált rendszerről beszéljünk. A műszerfal és az interaktív grafikus eszközök segítségével a felhasználók több dimenzióban elemezhetik az adatokat.

    A Pentaho Data Integration megkönnyíti a nagy mennyiségű adat integrálását egy drag-and-drop eszközzel, amely áthelyezi az adatokat a raktárakból a Big Data raktárakba. A rendszer arra is képes, hogy kiegészítse és kombinálja a strukturált adatforrásokat félig strukturált és strukturálatlan adatforrásokkal, hogy végül egyetlen képet alkosson.

    Az eszköz teljesen személyre szabható: a vizualizáció testreszabása, az interaktív jelentések, a műszerfal és a speciális elemzések mind a felhasználó rendelkezésére állnak. És mivel a PDI 100% Java platform, amely ipari szabványokra épül, mint például a RESTful webszolgáltatás, az integráció bármilyen alkalmazással egyszerű.

    24 Teradata Aster Analytics

    A Teradata Aster Analytics egy olyan eszköz, amely lehetővé teszi a szöveg, grafika, gépi tanulás, minták és statisztikák kezelését egyetlen felületen és szintaxison belül. Az üzleti elemzők és az adattudósok egyetlen lekérdezéssel komplex elemzést végezhetnek a vállalat egészéről. A Teradata Aster Analytics több mint 100 integrált speciális elemző lekérdezést tartalmaz.

    Ez az eszköz lehetővé teszi a Graph, R és MapReduce kombinálását egy keretben. Az SQL parancsként futó összes funkcióval és az eszközbe épített összes elemző motorral az Aster Analytics nagy teljesítményt nyújt nagy mennyiségű adat feldolgozása során.

    A Teradata Aster Analytics elérhető a Hadoop ökoszisztémán és az Amazon Web Servicesen.

    Aster Analytics a Hadoopon:

    1. Kibővíti a tóhasználati eseteket. Az Aster Analytics a vassal született elefántot a legtöbb üzleti elemző rendelkezésére bocsátja SQL vagy R készségekkel.
    2. Natívan működik. A felhasználóknak nem kell adatokat áthelyezniük a Hadoopról a szerverekre az adatok elemzése céljából.
    3. Gyorsan végrehajtja az elemzést. A felhasználók homokozó és futási környezeteket hozhatnak létre ugyanazon a Hadoop -fürtön ugyanazon adatokon.

    Aster Analytics az AWS -en:

    1. Felgyorsítja az üzleti megtérülést. Egy vállalat gyorsan biztosíthat analitikus homokozót a felhőben, és beágyazott SQL -t használhat a fejlesztés felgyorsítására.
    2. Növeli az elemzések rugalmasságát. Az adattudós hatalmas, sokoldalú eszközkészlettel rendelkezik: minden elemző megtalálhatja a megfelelő eszközt a Big Data használatához.
    3. Csökkenti az anyagi terheket. A vállalatok kihasználhatják a beépített fejlett elemzéseket és adatkészleteket új hardver nélkül.

    25

    Ez egy olyan eszköz, amelynek célja az erőforrások optimalizálása és a vállalat nyereségességének növelése.

    A szakértői elemzések és az Output Model Manager integrálása gyorsabb és pontosabb előrejelzési eredményeket eredményez, és prediktív betekintést nyújt az üzleti folyamatokba és alkalmazásokba - azokba a területekbe, ahol a felhasználók interakcióba lépnek.

    Az SAP BusinessObjects Predictive Analytics segítségével:

    • automatizálja az adatok előkészítését, a prediktív modellezést, a telepítést - és ennek eredményeként könnyen átképzhető a modell;
    • fejlett vizualizációs képességek segítségével gyorsabban vonhat le következtetéseket;
    • integrálja az R programozási nyelvet, hogy hozzáférést nyisson számos egyedi szkripthez;
    • együttműködik az SAP HANA -val.

    Az SAP BusinessObjects Predictive Analytics feszegeti a Spark határait, hogy fejlettebb interaktív adatelemzést biztosítson az ügyfeleknek. Az eszköz jelenlegi verziója lehetővé teszi az SAP HANA Vora -hoz való csatlakozást és a prediktív modellezés automatikus végrehajtását. A natív Spark modellezésnek a duplikált Spark példányokon való kihasználásával az SAP HANA Vora lehetővé teszi az automatizált algoritmusok elosztott feldolgozását.

    Ne feledje, hogy a Forrester Research 2015 áprilisában az SAP -nak a Big Data prediktív elemzésében vezető szerepet tulajdonított.

    26 Oracle Big Data előkészítés

    A skálázhatóság érdekében a Hadoop és a Spark beépített Oracle Big Data Preparation felhőszolgáltatása rendkívül intuitív és interaktív módszert kínál az elemzőknek a strukturált, félig strukturált és strukturálatlan adatok további feldolgozásra való előkészítéséhez.

    A fenti eszközök többségéhez hasonlóan az Oracle Big Data Preparation az üzleti felhasználókat célozza meg, így a szolgáltatás könnyen használható. A skálázhatóság lehetővé teszi, hogy az iteratív gépi tanulással fürtözött számítási környezetben dolgozzon. Az Oracle Big Data Preparation másik előnye, hogy számos felhőszolgáltatással integrálható.

    Ami ennek az eszköznek a funkcióit illeti, ezeket négy részre lehet bontani: fogyasztás, kiterjesztés, felügyelet és közzététel, valamint intuitív készítés.

    A fogyasztás (lenyelés) során a szolgáltatás importál és heterogén információkkal dolgozik, tisztítja az adatokat (például jelentéktelen karakterekből), szabványosítja a dátumokat, telefonszámokat és egyéb adatokat, valamint kiszámítja és eltávolítja a felesleges ismétlődő adatokat.

    A kiterjesztésnek (gazdagításnak) tartalmaznia kell az adatkategóriák meghatározását és jellemzőik azonosítását attribútumok, tulajdonságok és sémák, metaadatok észlelése (a sémaérzékelés olyan sémát / metaadatokat határoz meg, amelyek közvetlenül vagy közvetve fejlécekben, mezőkben vagy címkékben vannak definiálva).

    A kormányzás és a publikációk (kormányzat és publikációk) olyan interaktív irányítópultot jelentenek, amely egyetlen grafikont tartalmaz az összes feldolgozott adatkészletről, megfelelő mutatókkal és képességekkel a további részletes ellenőrzés és elemzés érdekében. A különböző közzétételi formátumok viszont maximális rugalmasságot biztosítanak.

    Összefoglaló

    Számos eszközt tekintettünk át a Big Data megoldások legjobb gyártóinak adatelemzésére. Amint észrevette, a legtöbb megoldás nyílt forráskódú, azaz nyílt forráskódú. Valóban sok keretrendszer, adatbázis, elemzési platform és egyéb eszköz áll rendelkezésre, ezért a feladat világos megértése szükséges. Miután eldöntötte a célt, könnyen kiválaszthatja a megfelelő eszközt (vagy eszközkészletet), amely lehetővé teszi a teljes körű adatelemzést.