goodhyun's image goodhyun 1.2K386
7/24 '12 posted

하둡에 대한 잡감 / [책] 거침없이 배우는 하둡

거침없이 배우는 하둡
척 램(著)
지앤선 (2012.7)
 '빅 데이터'라는 추상적이기 그지 없는 개념을 그래도 그나마 현실적인 무엇으로 끌어 당기는 가늠자로 기능하고 있는 것이 바로 하둡(Hadoop)일 것이다. 

"하둡을 써보지도 않았으면서 빅데이터 논하는거 우습지 않아요?"
뭐, 대강 이런 용례이다.  

이 책에도 나와 있는 하둡의 가장 큰 철학인 "코드를 데이터가 있는 곳으로 보내자"가 개발자(특히 자바 개발자)에게는 일종의 주권 회복과도 같은 신호였을지 모른다. 그리고 실제로 관련된 붐은 글로벌하게는 일어났다. 본서를 읽고 이해하면 응모할 수 있는 직업이 참 많아진 셈이다. 
Similar demand in the Java sector, brought on by another explosion in big data and Hadoop-related jobs, is putting the pressure on recruiters to find candidates to fill those slots.

초초초초거대 데이터와 싸워야만 했던 구글이 쓰던 초대용량 분산 파일 시스템과 MapReduce라는 프로그래밍 방식이 논문으로 발표되고, 이를 읽은 어떤 영웅이 비슷한 문제에 고민하던 이들을 위해 오픈소스를 개발하게 되고, 야후같은 경쟁사가 지원하면서 지금은 페이스북, 트위터 등 온갖 군데의 이상계 기업에서 다 쓰이게 되었고, 급기야 IBM, EMC, NetApp 등 현실계 IT 벤더등도 서로 하둡에 최적으로 준비된 제품을 일반기업도 부디 써보시라며 설레발 중이며, 여기에 화룡점정으로 MS조차 Hadoop on Windows 운운하고 있다. 그야말로 하둡 할렐루야? 
Financial firms are eager to deploy Hadoop on Windows, especially in real-time systems, he added. “We have client asking when the Windows version will land because they have existing skills and investments in Windows server.”
지금까지의 전개는 전형적인 무협지적 전개이고, 우리 개발자는 원래 이러한 파죽지세의 무용담에 기꺼이 흥분한다.  

그런데 이 하둡  배우면 얼마나 오래 쓸 수 있을까?  문제는 하둡이 하나로 끝나는 것이 아니라 엄청나게 커져버린 대체재와 관련 파생품의 집합이라는데 있다. 게다가 그마저도 근본적 한계가 있다. 
 Yet, for all of the SQL-like familiarity, they ignore one fundamental reality – MapReduce (and thereby Hadoop) is purpose-built for organized data processing (jobs). It is baked from the core for workflows, not ad hoc exploration. 
왜냐하면 "코드를 데이터가 있는 곳으로 보내자"는 바로 그 철학 아래서는 이는 어쩔 수 없는 일이었다. 
그러나 분산의 은혜를 입을 수 있는 그 철학(in situ의 철학)을  존중하면서 더 편한 무엇을 누군가 생각하지 않았을 리가 없고, 그 것이 다시 구글인 것은 당연했다. 자 이제 우리는 또 다른 무협지적 전개를 위해 아래와 같은 논문 몇 개부터 찾아 읽는 일을 또 다시 처음부터 다시 해야 하는 시기에 와버렸는지도 모른다. 
In this paper, we describe the architecture and implementation of Dremel, and explain how it complements MapReduce-based computing.

embed