데이터 과학과 빅 데이터는 동일합니까? 그들 사이에 차이점이 있습니까? 아니면 둘 다 같은 의미입니까?


대답 1:

아뇨.

이 문제를 세 부분으로 논의 해 보겠습니다.

데이터 과학은 통계, 조합, 수학 및 컴퓨터 과학 등의 다양한 방법을 사용하여 다양한 문제를 해결하는 전문 분야입니다.)

빅 데이터 : 넓은 관점에서 빅 데이터는 기존 방법 외부에서 방대한 데이터 (대형이라는 용어는 상대적)를 처리하는 개념입니다.

하둡 : 하둡은 프레임 워크이거나 다른 도구 (PIG, HIVE, Scoop, Fume 등)를 사용하여 대규모 데이터 세트를 관리하고 분석하는 데 사용할 수있는 환경이라고 할 수 있습니다.

참고 문헌 :

하둡 튜토리얼

데이터 과학

빅 데이터


대답 2:

“데이터 과학”과“빅 데이터 하둡”이 서로 다른 두 가지라고 생각했지만 실제로는 세 가지입니다. 데이터 과학, 빅 데이터 및 하둡은 다른 의미를 갖습니다.

10 학년 학생이라고 가정 해 봅시다. 반 친구들이 채점 한 각 과목에서 평균 점수를 찾는 일을 받았습니다. 수업에 50 명의 학생이 있으며 5 개의 과목을 공부합니다. 평균을 찾는 것은 로켓 과학이 아니므로 Excel 시트에서 모두 수행하십시오. 이제 교사는 약 150 명의 학생으로 구성된 모든 섹션 A, B 및 C에 대해 동일한 계산을 수행하도록 요청합니다. 엑셀 시트도 충분합니다. 이제 당신은 2016 년에 14,31,861 명의 학생들이 전국 10 학년 학생들에 의해 과학의 평균 점수가 무엇인지 알고 싶어합니다. 당신은 엑셀 시트에 많은 양의 데이터를 저장할 수 없기 때문에 그것을 저장할 것입니다 MySQL 또는 Oracle과 같은 데이터베이스에서. 평균을 찾기 위해 SQL 쿼리를 실행합니다. 이제 과학에서 10 년 동안 약 20 만 개의 레코드 인 지난 20 년 이후 평균이 어떻게 이동했는지에 대해 궁금합니다. 과학뿐만 아니라 5 개 과목 모두의 평균을 찾으려면 30000000 x 5 개의 레코드를 처리하게됩니다. 이제는 빅 데이터라고도하는 데이터가 큽니다.

빅 데이터-특히 인간의 행동 및 상호 작용과 관련된 패턴, 추세 및 연관성을 나타 내기 위해 계산으로 분석 할 수있는 매우 큰 데이터 세트-Wikipedia

MySQL 또는 Oracle에 너무 많은 데이터를 저장하지 않고 수백만 개의 레코드에서 SQL 쿼리를 실행해서는 안됩니다. 나는 SQL 데이터베이스에서 너무 많은 데이터를 다루지 않았으므로 성능에 대해서는 언급하지 않지만 Hadoop을 사용하여 우리가 이야기하는 학생 데이터베이스보다 훨씬 큰 대량의 데이터 세트를 처리했습니다. 하둡은 모든 시스템이 병렬로 계산을 수행 할 수 있도록 데이터를 여러 시스템으로 분산시키는 프레임 워크로 분산 컴퓨팅이라고도하는 전체 계산 속도를 향상시킵니다. Hadoop에는 Big Data 용 데이터 스토리지 시스템 인 자체 파일 시스템이 있습니다.

평신도 용어로 데이터 과학은 크든 작든 데이터로 무엇을해야하는지 이해하는 과학입니다. 지금까지 우리는 평균 점수 만 찾으려고했지만 데이터 과학자는 넘어서서 평균으로 수행 할 수있는 방법을 찾을 수있었습니다. 그는 조직을 위해 비즈니스 의사 결정을 내리고 보스가 더 나은 의사 결정을 내리고 수익을 늘리기 위해 리소스를 할당하는 데 도움이되는 패턴을 찾도록 도와 줄 것입니다. 대부분의 데이터 과학자는 빅 데이터를 다루지 않는 경우 하둡을 사용하지 않을 수도 있으며 일반적으로 계산에 R lang 또는 Python을 사용합니다.

Big Data는 개념이며, Hadoop은 도구이며, Data Science는 컴퓨터 과학 분야입니다.


대답 3:

“데이터 과학”과“빅 데이터 하둡”이 서로 다른 두 가지라고 생각했지만 실제로는 세 가지입니다. 데이터 과학, 빅 데이터 및 하둡은 다른 의미를 갖습니다.

10 학년 학생이라고 가정 해 봅시다. 반 친구들이 채점 한 각 과목에서 평균 점수를 찾는 일을 받았습니다. 수업에 50 명의 학생이 있으며 5 개의 과목을 공부합니다. 평균을 찾는 것은 로켓 과학이 아니므로 Excel 시트에서 모두 수행하십시오. 이제 교사는 약 150 명의 학생으로 구성된 모든 섹션 A, B 및 C에 대해 동일한 계산을 수행하도록 요청합니다. 엑셀 시트도 충분합니다. 이제 당신은 2016 년에 14,31,861 명의 학생들이 전국 10 학년 학생들에 의해 과학의 평균 점수가 무엇인지 알고 싶어합니다. 당신은 엑셀 시트에 많은 양의 데이터를 저장할 수 없기 때문에 그것을 저장할 것입니다 MySQL 또는 Oracle과 같은 데이터베이스에서. 평균을 찾기 위해 SQL 쿼리를 실행합니다. 이제 과학에서 10 년 동안 약 20 만 개의 레코드 인 지난 20 년 이후 평균이 어떻게 이동했는지에 대해 궁금합니다. 과학뿐만 아니라 5 개 과목 모두의 평균을 찾으려면 30000000 x 5 개의 레코드를 처리하게됩니다. 이제는 빅 데이터라고도하는 데이터가 큽니다.

빅 데이터-특히 인간의 행동 및 상호 작용과 관련된 패턴, 추세 및 연관성을 나타 내기 위해 계산으로 분석 할 수있는 매우 큰 데이터 세트-Wikipedia

MySQL 또는 Oracle에 너무 많은 데이터를 저장하지 않고 수백만 개의 레코드에서 SQL 쿼리를 실행해서는 안됩니다. 나는 SQL 데이터베이스에서 너무 많은 데이터를 다루지 않았으므로 성능에 대해서는 언급하지 않지만 Hadoop을 사용하여 우리가 이야기하는 학생 데이터베이스보다 훨씬 큰 대량의 데이터 세트를 처리했습니다. 하둡은 모든 시스템이 병렬로 계산을 수행 할 수 있도록 데이터를 여러 시스템으로 분산시키는 프레임 워크로 분산 컴퓨팅이라고도하는 전체 계산 속도를 향상시킵니다. Hadoop에는 Big Data 용 데이터 스토리지 시스템 인 자체 파일 시스템이 있습니다.

평신도 용어로 데이터 과학은 크든 작든 데이터로 무엇을해야하는지 이해하는 과학입니다. 지금까지 우리는 평균 점수 만 찾으려고했지만 데이터 과학자는 넘어서서 평균으로 수행 할 수있는 방법을 찾을 수있었습니다. 그는 조직을 위해 비즈니스 의사 결정을 내리고 보스가 더 나은 의사 결정을 내리고 수익을 늘리기 위해 리소스를 할당하는 데 도움이되는 패턴을 찾도록 도와 줄 것입니다. 대부분의 데이터 과학자는 빅 데이터를 다루지 않는 경우 하둡을 사용하지 않을 수도 있으며 일반적으로 계산에 R lang 또는 Python을 사용합니다.

Big Data는 개념이며, Hadoop은 도구이며, Data Science는 컴퓨터 과학 분야입니다.