Este aceeași știința datelor și big data hadoop? Există vreo diferență între ei sau înseamnă amândoi la fel?


Răspunsul 1:

Nu, categoric nu.

Vă permit să discutăm această problemă în trei părți:

Știința datelor este o specializare pentru a rezolva diferite probleme folosind diferite metode din statistică, combinatorie, matematică și informatică etc.)

Date mari: Datele mari într-o perspectivă largă reprezintă un concept de manipulare a datelor uriașe (termenul uriaș este relativ) în afara metodelor tradiționale.

Hadoop: Hadoop este un cadru sau putem spune un mediu care poate fi utilizat pentru a gestiona și analiza seturi de date uriașe folosind diferite instrumente (PIG, HIVE, Scoop, Fume etc.)

Referințe:

Tutorial Hadoop

Știința datelor

Date mare


Răspunsul 2:

Presupun că ați crezut că „Data science” și „Big Data Hadoop” sunt două lucruri diferite, dar de fapt sunt trei. Data Science, Big Data și Hadoop au semnificații diferite.

Să presupunem că ești student în clasa a 10-a. Vi s-a oferit un loc de muncă pentru a găsi media notelor la fiecare subiect notat de colegii de clasă. Aveți 50 de studenți în clasa dvs. care studiază câte 5 discipline. Găsirea mediei nu este o știință a rachetelor, așa că faceți totul într-o foaie excel. Acum, profesorul tău îți cere să faci același calcul pentru toate secțiunile A, B și C, de aproximativ 150 de studenți. Foaia Excel este din nou suficientă. Acum doriți să știți care ar fi notele medii pentru știință notate de studenții clasei a 10-a din toată țara, care este în jur de 14.31.861 de studenți în 2016. Puteți, eventual, să nu stocați atât de multe date într-o foaie excel, astfel încât să o depozitați într-o bază de date precum MySQL sau Oracle. Executați o interogare SQL pentru a găsi media. Acum sunteți curios să cunoașteți tendința modului în care mediile s-au mișcat din ultimii 20 de ani în Știință pentru clasa 10, care este în jur de 3000000 de înregistrări. Dacă ar fi să găsiți media celor 5 materii și nu doar știință, ar fi să gestionați 30000000 x 5 înregistrări. Datele sunt mari acum, care se mai numește „Big Data”.

Big Data - seturi de date extrem de mari care pot fi analizate în mod computerizat pentru a dezvălui tipare, tendințe și asociații, în special legate de comportamentul și interacțiunile umane. - De la Wikipedia

Probabil că nu ar trebui să stocați atât de multe date în MySQL sau Oracle și să rulați interogarea SQL pe milioane de înregistrări. Nu am tratat niciodată atât de multe date într-o bază de date SQL, așa că nu voi comenta performanțele sale, dar am folosit Hadoop pentru a gestiona o cantitate masivă de seturi de date, mult mai mare decât baza de date a studenților despre care vorbim. Hadoop este un cadru care distribuie datele în mai multe sisteme, astfel încât toate sistemele să poată face calcule în paralel, crescând astfel viteza de calcul generală, numită și Calcul distribuit. Hadoop are propriul sistem de fișiere, care este un sistem de stocare a datelor pentru Big Data.

Știința datelor în termeni laici este o știință a înțelegerii ce trebuie făcut cu datele, mari sau mici. Până acum încercam doar să găsim media scorurilor, dar un om de știință de date ar depăși și să caute modalități de a găsi ce se poate face cu media. Pentru o organizație, îi va ajuta să ia decizii de afaceri și să găsească tipare care să îi ajute pe șefi să ia decizii mai bune și să aloce resurse pentru creșterea profitului. Majoritatea oamenilor de știință de date poate să nu folosească Hadoop dacă nu se ocupă de Big Data, de obicei folosesc R lang sau Python pentru calcule.

Big Data este un concept.Hadoop este un instrument.Data Science este un domeniu al informaticii.


Răspunsul 3:

Presupun că ați crezut că „Data science” și „Big Data Hadoop” sunt două lucruri diferite, dar de fapt sunt trei. Data Science, Big Data și Hadoop au semnificații diferite.

Să presupunem că ești student în clasa a 10-a. Vi s-a oferit un loc de muncă pentru a găsi media notelor la fiecare subiect notat de colegii de clasă. Aveți 50 de studenți în clasa dvs. care studiază câte 5 discipline. Găsirea mediei nu este o știință a rachetelor, așa că faceți totul într-o foaie excel. Acum, profesorul tău îți cere să faci același calcul pentru toate secțiunile A, B și C, de aproximativ 150 de studenți. Foaia Excel este din nou suficientă. Acum doriți să știți care ar fi notele medii pentru știință notate de studenții clasei a 10-a din toată țara, care este în jur de 14.31.861 de studenți în 2016. Puteți, eventual, să nu stocați atât de multe date într-o foaie excel, astfel încât să o depozitați într-o bază de date precum MySQL sau Oracle. Executați o interogare SQL pentru a găsi media. Acum sunteți curios să cunoașteți tendința modului în care mediile s-au mișcat din ultimii 20 de ani în Știință pentru clasa 10, care este în jur de 3000000 de înregistrări. Dacă ar fi să găsiți media celor 5 materii și nu doar știință, ar fi să gestionați 30000000 x 5 înregistrări. Datele sunt mari acum, care se mai numește „Big Data”.

Big Data - seturi de date extrem de mari care pot fi analizate în mod computerizat pentru a dezvălui tipare, tendințe și asociații, în special legate de comportamentul și interacțiunile umane. - De la Wikipedia

Probabil că nu ar trebui să stocați atât de multe date în MySQL sau Oracle și să rulați interogarea SQL pe milioane de înregistrări. Nu am tratat niciodată atât de multe date într-o bază de date SQL, așa că nu voi comenta performanțele sale, dar am folosit Hadoop pentru a gestiona o cantitate masivă de seturi de date, mult mai mare decât baza de date a studenților despre care vorbim. Hadoop este un cadru care distribuie datele în mai multe sisteme, astfel încât toate sistemele să poată face calcule în paralel, crescând astfel viteza de calcul generală, numită și Calcul distribuit. Hadoop are propriul sistem de fișiere, care este un sistem de stocare a datelor pentru Big Data.

Știința datelor în termeni laici este o știință a înțelegerii ce trebuie făcut cu datele, mari sau mici. Până acum încercam doar să găsim media scorurilor, dar un om de știință de date ar depăși și să caute modalități de a găsi ce se poate face cu media. Pentru o organizație, îi va ajuta să ia decizii de afaceri și să găsească tipare care să îi ajute pe șefi să ia decizii mai bune și să aloce resurse pentru creșterea profitului. Majoritatea oamenilor de știință de date poate să nu folosească Hadoop dacă nu se ocupă de Big Data, de obicei folosesc R lang sau Python pentru calcule.

Big Data este un concept.Hadoop este un instrument.Data Science este un domeniu al informaticii.