delight412's image delight412 601117
7/16 '12 posted

'거품을 경계하라'...의미있는 빅데이터를 위한 조언들

정부 차원에서도 '빅데이터',  '빅데이터'하기 시작했습니다. 과거 사례를 들어 우려하는 목소리도 많이 들립니다. 거품만 조장하고 허망하게 끝날까 걱정하는거죠. 

윤상직 지경부 차관은 축사에서 "빅데이터 시대에는 데이터가 국가의 부와 미래에 새로운 가치를 창출할 것이다. 특히 빅데이터와 에너지와의 융합이 미래의 '화두'가 될 것"이라고 강조하며 "최근 급변하는 IT트렌드를 반영해 올 하반기 내에 선도사업, 기술개발, 전문인력 양성 등의 내용을 포함하는 '빅데이터 SW산업 발전전략'을 마련할 계획"이라고 밝혔다.

하는건 좋다. 나는 정부 차원의 산업 프로모션이 필요하다는 입장이다. 근데, 언제부터인가 정부 정책이 진부해 보인다. 같은 포맷에 이름만 바뀐것 같다는...정부 정책에 대한 불신은 커져만 간다.  빅데이터 육성 정책도 그런 것 같다. 이왕 할것이라면 그루터와 같은 벤처 기업이나 현장에서 활동하는 이들의 목소리를 많이 들었으면..

벌써부터 걱정의 목소리도 많습니다.  얼마전 지디넷코리아와  한국커뮤니티연합회가 주최한 제2회 대한민국 커뮤니티 데이에선 빅데이터를 말한다를 주제로 전문가들간 패널 토론이 벌어졌습니다. 지디넷코리아와 블로터닷넷에 관련 기사가 났는데요, 빅데이터 프로젝트에 접근하기 위한 다양한 조언들이 있었습니다.

 그에따르면 개발자들이 보는 데이터는 0아니면 1일 뿐이라 자체적으로 빅데이터를 수집하더라도 그걸 들여다보면서 서비스모델을 직접 만들어내긴 어렵다. 기업 입장에선 데이터를 수익화할 분석가와 서비스 기획자가 필요하다는 지적이다.   다만 큰 조직일 경우 개발부서와도 긴밀한 협력이 필요해 서비스모델하나와 데이터분석가만 데리고 진행하더라도 성공하기 어렵다고 덧붙였다. 결국 기획자가 됐든 서비스 관리자가 됐든 기업이 보유한 데이터를 쉽게 들여다보고 인사이트를 얻을 수 있도록 지원해야 한다고 강조했다. 
 그는 “빅데이터를 분석하는데 든 비용이 분석 후 가치보다 크면 그 빅데이터는 쓰레기”라고 말했습니다. 상당히 공격적인 발언이었습니다. 빅데이터에 대한 관심이 폭발적으로 높아지고 있는 상황에서 홍태희 연구원의 말은 시사하는 바가 큽니다. 무조건 금액을 크게 잡아놓고 시작해서는 안된다는 것이죠. 가치가 있는지 없는지 모를 빅데이터에 큰 금액을 투자한다는 것 자체가 위험한 발상이라는 조언으로 들렸습니다. 작게 시작해서 차곡차곡 기술과 서비스 운영 경험, 서비스 모델들을 만들어 나가야 하는 상황을 이렇게 표현한 것 아닌가 하는 생각이 들었습니다. 

블로그를 통해 직접 의견을 말하는 전문가들도 많습니다. 빅데이터 프로젝트에서 직접 뛰고 있는 그루터의 김형준님에 따르면 빅데이터 프로젝트는 천리길도 한걸음부터, 시작이 반입니다. 외부 업체에 맡기고 나몰라라 하지 않고, 내부에서 기술적인 역량을 키우는 것도 중요합니다.

핵심은 쉬운것부터, 욕심을 버리고, 지속적으로 할 수 있는 체계를 갖추는 것입니다. 이렇게 하기 위해서는 기업 내부에서 투자를 결정하는 의살결정권자의 전폭적인 지지와 관심이 있어야만 가능합니다. 기존의 방식처럼 특정 사업부에 맞기고 그 사업부의 임원의 성과로만 치부해버리면 단기간의 화려한 성과에 매달리게 되고 주변의 도움도 받지 못하게 됩니다. 가능하면 CEO 또는 CTO 직속으로 조직을 두고 여러 사업부에 영향력을 행사할 수있는 임원급에게 업무를 할당하는 것이 성공의 첫 단추입니다. 전사적인 부서로 두어야 하는 필요성 중의 하나는 여러 부서로부터의 데이터를 수집해야 하고 처리된 결과를 다시 필요로 하는 부서로 제공해야 하기 때문이기도 합니다.

다음커뮤니케이션의 윤석찬 님도 마찬가지네요.  빅데이터 관련 오픈소스 기술 내재화와 스몰데이터부터 차근차근 활용할 것을 주문합니다.

 개발자들이 직접 자신의 데이터를 다룰려면 직접 Hadoop이나 NoSQL을 활용할 수 있는 환경이 필수적이다. 물론 이들은 모두 오픈 소스 소프트웨어로서 누구나 접근 가능하다. 클라우데라를 비롯 많은 벤더들이 이들 오픈 소스를 이용한 관리 도구 및 기술 지원을 하는 비지니스에 바로 착수하였다. 오픈 소스를 활용하는 회사들의 가장 큰 장점이자 단점은 기술 내재화(internalization) 비용이다. 개발자들이 이 기술을 사내에 내재화 할 수 있는 잉여력을 제공해야 한다. 무작정 벤더만 믿어서는 결코 성공할 수 없다. 길게 보고 개발자에게 투자하는 안목 있는 회사만이 미래가 있다는 점을 다시 한번 깨달아야 한다. 

지난해부터 빅데이터 관련 블로그 포스팅으로 관심을 끌고 있는 김우승님도 너무 큰 욕심 부리지 말고, 기본에 충실할 것을 주장합니다.

빅데이터라고 하는 분야는 이러한 측면에서 분명 소프트웨어 개발자들에게는 새로운 기회가 될 것입니다. 하지만 이것도 시간이 많이 남질 않았습니다. 점점 쓰기 쉬운 도구들이 이미 나왔고 더욱 좋은 도구와 솔루션들이 나오게 될 것입니다. 그래서 더욱 데이터(꼭 빅데이터가 아니여도 상관없습니다) 라고 하는 것을 제대로 이해할 수 있는 역량 (데이터 과학자)  또는 그 데이터 프로세싱을 효과적으로 프로그래밍하고 운영할 수 있는 기술과 노하우(Devops) 를 갖추는 것이 중요하다고 다시 한번 말씀드리고 싶네요.  
비용적인 측면에서, 기술역량이 부족하다는 핑계로 미뤄뒀던 기업들도 자신들의 데이터에 좀더 관심을 가져보자. 일단 데이터를 저장하고 세어 보고 분석을 시도해보자. 더 이상 하둡, NoSQL 이라는 기술은 어려운 기술이 아니다. 단지 익숙하지 않을 뿐이다. 빅데이터와 관련된 다양한 기술 동향이나 솔루션 업체들의 성공 사례에 귀기울이는 것은 더 이상 하지 않아도 된다. 자신들이 어떠한 데이터를 가지고 있는지 거기에서 어떠한 가치를 찾아낼 수 있는지는 자신들이 제일 잘 알 수 밖에 없다. 빅데이터도 결국 데이터이다. 이제는 기술보다는 데이터에 더 관심을 가져야 할 때다. 시간을 가지고 자신들의 데이터를 “빅” 데이터로 만들때이다.

큐레이션 기반 서비스 아이엠데이를 운영하고 있는 어설프군YB님도 빅데이터는 서비스 관점에서 빅데이터를 바라보는 의견을 올렸네요.
다양한 정보들을 찾아봐도 절대 쉽지 않다, 위에서 언급한 여러 기술들을 응용하는 응용 능력 자체도 쉽게 익힐 수 있는 것이 아니지만, 문제는 이 기술을 익히고 노하우를 쌓으면서 데이터를 어떻게 구조화하고 분석해 갈것인가에 대한 설계적, 기술적 관점의 능력이 필수적이란 것이다.  사용자가 웹 서비스를 이용한 데이터가 있다고하자, 참고 할 것은 빅데이터는 정적인 데이터 뿐만이 아니라 실시간으로 행해지는 모든 유저의 데이터를 포괄한다.  그리고 그런 데이터를 유저의 행위별, 행위가 가진 연속성과 반응을 보인 데이터의 유형등으로 어떻게 구조화하고 그 데이터를 쌓을 것인지, 그리고 그것에 대한 데이터를 분석해 낼 것인지가 핵심이다. 

과거 정부가 어떤 슬로건을 들고 나오면 협단체가 생기고, 인력 양성 프로그램이 만들어지고 했지만 실질적인 효과가 있었는지는 '글쎄'라는 시선들이 많습니다. 빅데이터라고 해서 다를까요? 현업에서 뛰는 이들의 목소리가 좀 더 부각될 수 있기를 기대합니다.

embed