Može li neko postati uspješan arhitekt velikih podataka bez učenja podataka? Koja je razlika između arhitekta velikih podataka i znanstvenika podataka?


Odgovor 1:

Hvala vam na više A2A! :)

Ovo je moja osobna iskustva s tim pitanjima.

U Miniclip-u imamo tim za podatkovne znanosti i tim za inženjering podataka. Tim za podatkovni inženjering obrađuje sve velike podatke. S radom bi tim za podatkovne znanosti mogao to učiniti, ali mi bismo to činili još gore i sporije ... to ne želimo! :)

Tim za inženjering podataka ne treba zaista istraživati ​​specifičnosti domene putem kojim ide tim za znanost podataka. Međutim oni znaju prilično strojno učenje i na većim projektima automatiziranih podataka radimo zajedno.

Dakle, po mom mišljenju, možete postati uspješan arhitekt / inženjer velikih podataka bez znanosti o podacima, što znači, bez znanja o domeni / algoritamima o kojima tvrtke ovise o znanstvenicima podataka. Međutim, bit ćete mnogo bolji inženjer podataka ako uđete u to.


Odgovor 2:

Slažem se s Marcinom. Data znanstvenici mogu utjecati na veliku podatkovnu infrastrukturu od strane velikog arhitekta podataka. IMO, neka su od glavnih razmatranja koja bi arhitekt velikih podataka trebao znati jesu sljedeća, od kojih je dio analitika podataka / znanost (točka 3 u nastavku):

1) Gutanje podataka - serija i strujanje

2) Spremanje podataka - distribuirana pohrana, NoSQL

3) Obrada i analitika ** - Serijska obrada, strujna obrada, analitika. Ovdje bi arhitekt velikih podataka trebao barem znati o dostupnim analitičkim alatima / API-ju da bi ih mogao preporučiti i uključiti u infrastrukturu velikih podataka (na temelju slučajeva poslovne upotrebe i preferencija znanstvenika podataka). Nekoliko čimbenika koje treba uzeti u obzir u alatu za omogućavanje znanstveniku podataka mogu biti - vrste dostupnih algoritama, podrška maternjem jeziku, povezanost s velikim podatkovnim okruženjem, mogućnosti analize podataka, profiliranje podataka itd.

4) Potrošnja - serijska ili strujna potrošnja

5) Potrebe hardvera za razne komponente okruženja velikih podataka

6) Operativne potrebe okruženja velikih podataka


Odgovor 3:

Slažem se s Marcinom. Data znanstvenici mogu utjecati na veliku podatkovnu infrastrukturu od strane velikog arhitekta podataka. IMO, neka su od glavnih razmatranja koja bi arhitekt velikih podataka trebao znati jesu sljedeća, od kojih je dio analitika podataka / znanost (točka 3 u nastavku):

1) Gutanje podataka - serija i strujanje

2) Spremanje podataka - distribuirana pohrana, NoSQL

3) Obrada i analitika ** - Serijska obrada, strujna obrada, analitika. Ovdje bi arhitekt velikih podataka trebao barem znati o dostupnim analitičkim alatima / API-ju da bi ih mogao preporučiti i uključiti u infrastrukturu velikih podataka (na temelju slučajeva poslovne upotrebe i preferencija znanstvenika podataka). Nekoliko čimbenika koje treba uzeti u obzir u alatu za omogućavanje znanstveniku podataka mogu biti - vrste dostupnih algoritama, podrška maternjem jeziku, povezanost s velikim podatkovnim okruženjem, mogućnosti analize podataka, profiliranje podataka itd.

4) Potrošnja - serijska ili strujna potrošnja

5) Potrebe hardvera za razne komponente okruženja velikih podataka

6) Operativne potrebe okruženja velikih podataka