하둡 완벽 가이드 예제

Hadoop MapReduce는 신뢰할 수 있는 내결함성 방식으로 상용 하드웨어의 대규모 클러스터(수천 개의 노드)에서 방대한 양의 데이터(다테라바이트 데이터 세트)를 병렬로 처리하는 응용 프로그램을 쉽게 작성하기 위한 소프트웨어 프레임워크입니다. 대부분의 경우 Hadoop은 컴퓨팅 시스템 제한으로 인해 단순히 사용중인 작업이 이전에 (특히 구조화되지 않은 데이터로) 수행되지 않았기 때문에 아무 것도 대체하지 않았습니다. 관계형 데이터베이스와 분산 파일 시스템은 각각 Hadoop이 할 수 있는 작업의 일부를 수행하지만 훨씬 더 작은 규모로 작동합니다. 다시 말하지만, 더 유익한 질문은 하두롭의 어떤 요소를 생태계의 다른 기술과 제품으로 대체하거나 강화할 수 있는가하는 것입니다. 응용 프로그램은 옵션 -files를 사용하여 작업의 현재 작업 디렉토리에 있는 쉼표 분리된 경로 목록을 지정할 수 있습니다. -libjars 옵션을 사용하면 응용 프로그램이 맵의 클래스 경로에 항아리를 추가하고 줄일 수 있습니다. 옵션 -archives를 사용하면 쉼표로 분리된 아카이브 목록을 인수로 전달할 수 있습니다. 이러한 아카이브는 보관되지 않으며 아카이브 이름이 있는 링크가 현재 작업 중인 작업 디렉토리에 만들어집니다. 명령줄 옵션에 대한 자세한 내용은 명령 가이드에서 확인할 수 있습니다.

Hadoop은 또한 성능 (zlib) 및 자바 라이브러리의 비 가용성의 이유로 위의 압축 코덱의 기본 구현을 제공합니다. 사용 및 가용성에 대한 자세한 내용은 여기에서 확인할 수 있습니다. 일반적으로 Hadoop은 성능이나 수익을 개선하기 위한 통찰력을 제공할 수 있는 대규모 데이터 세트, 시간에 민감한 데이터 및 데이터를 보유한 산업 및 조직에서 가정을 찾았습니다. 구체적으로, 금융 서비스, 통신, 유틸리티/에너지 및 소매 산업은 일부 정부 및 기타 공공 부문 조직과 함께 초기 Hadoop 채택자 및 혁신가였습니다. 지금까지 Hadoop이 프로그래밍 언어도 서비스도 아니며 빅 데이터 문제를 해결하는 플랫폼이나 프레임 워크라는 것을 알아 냈을 것입니다. 구성 관리를 위한 도구와 함께 거 대 한 데이터 집합을 수집, 저장 및 분석 하기 위한 다양 한 서비스를 포함 하는 제품군으로 간주할 수 있습니다. 일반 옵션의 유틸리티를 보여 줍니다일반 Hadoop 명령줄 옵션을 처리 하는 파서. Hadoop은 컴퓨터 클러스터에 있는 대용량 데이터 집합을 보다 쉽게 처리할 수 있는 분산 프레임워크입니다. 그것은 프레임 워크이기 때문에, Hadoop은 하나의 기술이나 제품이 아닙니다. 대신, Hadoop은 지원 기술과 제품의 대규모 에코시스템에 의해 지원되는 네 개의 핵심 모듈로 구성됩니다. 모듈은 다음과 같습니다 : 하두프에 네 가지 기본 요소가 있습니다 : HDFS; 맵감소; 원사; 일반적인. 따라서 특히 분산 캐시 관련 기능에 대해 HDFS를 가동하고 실행해야 합니다.

따라서 의사 분산 또는 완전히 분산된 Hadoop 설치에서만 작동합니다. Hadoop이 설치, 구성 및 실행 중인지 확인합니다. 자세한 내용: 참고: 맵감소. {map|reduce}.java.opts는 MRAppMaster에서 시작된 자식 작업을 구성하는 데만 사용됩니다. 데몬에 대한 메모리 옵션을 구성하는 것은 하두프 데몬의 환경 구성에 설명되어 있습니다.

Ce contenu a été publié dans Non classé. Vous pouvez le mettre en favoris avec ce permalien.

Les commentaires sont fermés.