"하둡을 써보지도 않았으면서 빅데이터 논하는거 우습지 않아요?"
뭐, 대강 이런 용례이다.
이 책에도 나와 있는 하둡의 가장 큰 철학인 "코드를 데이터가 있는 곳으로 보내자"가 개발자(특히 자바 개발자)에게는 일종의 주권 회복과도 같은 신호였을지 모른다. 그리고 실제로 관련된 붐은 글로벌하게는 일어났다. 본서를 읽고 이해하면 응모할 수 있는 직업이 참 많아진 셈이다.


초초초초거대 데이터와 싸워야만 했던 구글이 쓰던 초대용량 분산 파일 시스템과 MapReduce라는 프로그래밍 방식이 논문으로 발표되고, 이를 읽은 어떤 영웅이 비슷한 문제에 고민하던 이들을 위해 오픈소스를 개발하게 되고, 야후같은 경쟁사가 지원하면서 지금은 페이스북, 트위터 등 온갖 군데의 이상계 기업에서 다 쓰이게 되었고, 급기야 IBM, EMC, NetApp 등 현실계 IT 벤더등도 서로 하둡에 최적으로 준비된 제품을 일반기업도 부디 써보시라며 설레발 중이며, 여기에 화룡점정으로 MS조차 Hadoop on Windows 운운하고 있다. 그야말로 하둡 할렐루야?


그런데 이 하둡 배우면 얼마나 오래 쓸 수 있을까? 문제는 하둡이 하나로 끝나는 것이 아니라 엄청나게 커져버린 대체재와 관련 파생품의 집합이라는데 있다. 게다가 그마저도 근본적 한계가 있다.


왜냐하면 "코드를 데이터가 있는 곳으로 보내자"는 바로 그 철학 아래서는 이는 어쩔 수 없는 일이었다.
그러나 분산의 은혜를 입을 수 있는 그 철학(in situ의 철학)을 존중하면서 더 편한 무엇을 누군가 생각하지 않았을 리가 없고, 그 것이 다시 구글인 것은 당연했다. 자 이제 우리는 또 다른 무협지적 전개를 위해 아래와 같은 논문 몇 개부터 찾아 읽는 일을 또 다시 처음부터 다시 해야 하는 시기에 와버렸는지도 모른다.


Login to comment