정보혁명의 빅뱅 ‘BIG DATA’

<칼럼]> 정보화 시대 신병기 ‘선점’ 치열한 각축전

이 기사를 공유합니다

[시사매일=최형선 칼럼니스트] ◇미국이 인터넷 통제와 독점을 포기

그동안 인터넷은 미국의 소유였다. 미국 국방부에서 시작된 인터넷은 지금 전 세계 사람들이 사용하고 있지만 인터넷 주소를 관리하는 핵심 기능은 그 동안 미국 정부가 조율하고 있었다. 하지만 미국이 갑자기 이 권리를 포기하겠다고 발표했다.

인터넷 주소에 대한 헤게모니를 유지하기보다 포기를 선언한 표면적 이유로 미국 상원 록펠러 의원은 인터넷의 자유와 개방을 촉진하기 위해서라고 밝혔다.미국 정부가 이 기술을 국가 소유로 확보하기 위해 그 동안 얼마나 노력했는지는 잘 알려져 있는 사실이다.

미국 상무부는 인터넷 도메인과 주소 정책을 직접 관리하고 있었는데 국제 사회가 그 권한을 국제적인 단체로 넘길 것을 강력하게 요구하자 1998년 6월 '인터넷 주소 운영에 관한 백서'를 통해 ICANN을 만들었다. 그리고 내년 9월 30일로 계약이 만료되는 ICANN과 계약 연장을 하지 않으면서 새로운 기구를 만들면서 이 권리를 포기하게 될 것이다.

미국 정부가 그런 결정을 할 수 있었던 배경은 스마트폰 운영체제와 검색, PC 운영체제와 업무용 프로그램, 데이터베이스, 서버, 정보기술 컨설팅, 네트워크, 저장 기술, 모바일 기술 모두를 미국 기업이 독식하고 있기 때문이다. 또한 미국의 인터넷 도감청 기술은 완성 단계이므로 실질적인 인터넷 장악을 위해 이런 결정을 내린 것이라 볼 수 있다.

◇인류를 지배할 전략무기 ‘빅데이터’

이제 디지털 데이터가 지배하는 세상이 되었다. 그 데이터를 잘 분석할 수 있다면 굳이 여론 조사를 하지 않더라도 잠재된 사람들의 성향을 분석할 수 있을 것이고 미래를 예측할 수도 있을 것이다.

최근 우리 주변에서 얘기하고 있는 빅데이터란 무엇을 말하는 것일까?

이 용어는 매일매일 쌓이는 데이터로 모든 분야에서 발생하는 기간별 통계 데이터를 의미한다. 그 데이터의 양이 엄청나기 때문에 이를 빅데이터라고 부른다.

이 빅데이터를 분석하고 가공하면 뭔가를 할 수 있다는 데서 최근 그 중요성이 커지고 있다. 보스톤 마라톤의 폭탄테러 범인들도 이 빅데이터를 분석해서 발견해 낼 수 있었다고 하며 이 빅데이터 기술을 통해 수많은 범죄 시도가 차단되고 있고 범죄 후에 범인을 찾는 수단으로도 이용되고 있다.

또한 빅데이터는 미래를 예측하기 위해서도 사용된다. 하지만 현재의 정형화된 통계를 사용해서는 이런 분석이 용이하지 않으므로 이를 의미 있게 변화시키려면 빅데이터를 분석해 잠재 이슈를 도출해내야만 한다.

클라우드 컴퓨팅과 함께 널리 확산되고 있는 빅데이터의 역량과 한계에 대해서 잘못 이해하고 있는 사람들이 많은 것 같다.

현재 비관계형 DBMS의 가장 인기 있는 아파치 하둡(Apache Hadoop)은 분산형 데이터 프레임워크이다. 막대한 양의 데이터를 떠올리게 되는 페이스북과 야후가 사용하면서 하둡은 빅데이터의 대명사가 되었다. 물론 미국 정부 시스템도 그런 흐름에 한 몫을 했다.

하둡 분산형 파일시스템은 하둡 네트워크에 연결된 아무 기기에나 데이터를 밀어 넣는 분산형 파일시스템(HDFS)이다. 이런 유연성은 RDBMS가 전용 기기들을 필요로 하는 것과 달리 좋은 하드디스크가 거의 없는 상용화 서버들도 활용할 수 있다.

데이터를 다수의 기기들과 드라이브들에 저장하기 때문에 다수 노드로 이뤄진 하둡 시스템은 자동으로 데이터 중복을 허용한다. 따라서 하나의 노드에 고장이 발생하거나 성능 문제가 발생하더라도 데이터 접근이 가능하다.

HDFS와 함께 하둡에는 맵리듀스가 있다. 이는 정보 요청이 들어오면 잡트래커(JobTracker)와 태스크트래커를 활용한다. 데이터 요청은 별개의 작업 세트로 나뉘어지게 되는데 잡트래커가 작업을 태스크트래커에 전달한다. 네트워크 지연시간을 줄이려면 작업은 데이터와 동일 노드에 할당되거나 동일 랙에 들어 있는 노드에 할당된다.

분산형 파일시스템은 RDBMS(관계형 데이터베이스 관리시스템)의 테이블 스토리지라는 기존 영역에서 완전히 벗어나기 때문에 일반 DB 관리자들이 이해하기 힘들 수 있다. 그러나 그 성장성과 전문성으로 인해 빅데이터 전문가들을 양산시키는 배경이 되고 있다. 조작이 사용자 인터페이스 화면이 아닌 명령행으로 가능하기 때문에 임의의 개발이 가미돼야 한다.

이런 시스템을 최고의 성능으로 운영하려면, 한꺼번에 많은 데이터를 처리할 수 있어야 한다. 그래서 이를 처리하는 서버가 기가급이 아닌 테라급 D램을 장착하고 있을 필요가 있다.

그래서 구글이나 마이크로소프트와 같은 회사들은 엄청나게 많은 서버들을 네트워크화해서 시스템을 구축하고 있다. 물론 국내의 네이버나 다음과 같은 포털도 데이터센터를 별도로 구축해서 동일한 행보를 하고 있는 상황이다. 그리고 이제는 국내에서 규모가 있는 기업들은 모두 빅데이터를 연구한다며 뛰어들고 있다.

◇탈세 및 사기범죄 적발 ‘혁혁한 공로’

글로벌 금융위기로 인해 탈세와 사기 등 금융범죄도 늘어나면서 국가가 재정 위기를 맞지 않기 위해 방어적 조치를 취할 필요가 있다. 미국의 탈세 금액은 2010년 기준 저소득층의 의료보장 총액을 초과했다는 통계가 발표되었다.

미국 국세청이 탈세를 줄이기 위해 사기 범죄 방지 솔루션, 소셜네트워크 분석, 데이터 통합과 마이닝 등을 활용하면서 세금 누락과 불필요한 세금 환급을 막는 효과를 거두고 있다. 해답은 바로 대용량 데이터 활용과 빅데이터 분석에 있다.

미국 국세청은 2010년 발표된 통계자료를 접하면서 이를 해결하기 위해 2011년 대용량 데이터와 IT 기술을 결합해 통합형 탈세 및 사기 범죄 방지 시스템을 구축했다.

해당 시스템의 예측 모델링은 납세자의 과거 행동 정보를 분석한 다음 사기 패턴과 유사한 행동을 검출하는 메커니즘을 사용한다. 그리고 고의 세금 체납자를 찾아내기 위해 페이스북이나 트위터를 통해 범죄자와 관련된 계좌, 주소, 전화번호, 납세자 간 연관관계 등을 분석한다.

이때 미국 국세청은 오픈소스 기반의 대용량 데이터 처리 소프트웨어인 하둡 등을 적용해 저렴한 비용으로 데이터를 분석했다. 그 결과 연간 3,450억 달러에 이르는 세금 누락을 막아낼 수 있었다.

하지만 국내 업체들의 경우, 빅데이터 분석을 시작했으면서도 정작 큰 효과를 거두지 못하는 상황이다.

◇미래 경쟁력! 좌지우지 ‘21세기 원유’

미국의 시장조사기관인 가트너는 ‘데이터는 미래 경쟁력을 좌우하는 21세기 원유’로 비유했다. 더불어 “기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다”라고 강조했다.

21세기 기업에게 가장 중요한 자산은 데이터이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없기 때문에 유수의 기업들이 빅데이터에 관심을 갖는 것이다.

그러나 정작 빅데이터가 갖는 의미를 잘 살피지 못하는 것 같다. 빅데이터를 단어의 의미처럼 ‘방대한 데이터’로만 받아들인다면, 결코 목적을 이룰 수 없다.

빅데이터는 그동안 통계 보고서에서 다루는 정형화된 데이터 외에 이미지, 멀티미디어 데이터, 센서 및 로그 데이터와 같은 비정형 데이터를 포함한다. 한 마디로 모든 데이터를 포함해서 분석한다는 말이다. 이런 데이터를 한꺼번에 분석해 내려면 시스템 성능과 효과적으로 처리할 수 있는 기술이 뒷받침 돼야 한다.

과거에도 이런 데이터가 없었던 것이 아니지만 이를 분석할 방법이 없었기에 빅데이터화하지 못했던 것이다.

오늘날에는 저렴한 비용으로 방대한 데이터를 효과적으로 처리할 수 있게 되었다. 비정형 데이터를 분석하기 위해 자연어처리 기술과 텍스트 분석, 이미지나 멀티미디어 인식 기술 등이 뒷받침되면서 활성화될 수 있었다. 또 하둡 등과 같은 오픈소스 기술을 사용하여 저렴한 비용으로 원하는 정보를 추출한 후 기존 정보와 통합할 수 있게 됐다.

빅데이터를 제대로 다루려면, 이를 분석하는 전문가가 반드시 있어야 한다. 국내 기업들이 하드웨어와 소프트웨어를 확보하고도 이를 제대로 진행하지 못하는 이유는 전문가 부재에 있다.

빅데이터를 제대로 활용하려면 조직의 비즈니스 요구사항을 식별하는 작업이 반드시 필요하다. 요구사항 식별을 통해 원하는 데이터의 범주를 확보할 수 있기 때문이다. 이 작업이 완료되면, 원하는 데이터를 검색하고 전처리를 통해 준비하는 작업이 진행된다. 데이터가 확보되면 데이터 분석 모델을 구축해야 한다. 물론 이것에 대한 검증작업도 이루어져야 한다.

이때 필요한 인력이 데이터 전문가라고 할 수 있다. 이들은 기본 데이터 분석을 할 수 있을 뿐 아니라 프로그래밍도 할 수 있어야 하며 사업에 대한 지식도 확보하고 있어야 한다.

◇빅데이터 '전문인력 양성' 총력전

2011년 5월 발표된 맥킨지 보고서에 따르면 미국에서만 2018년까지 14~19만 명의 데이터 전문가와 150만 명 정도의 관리자 및 분석 인력이 필요하다고 전망했다. 국내에서도 서울대학교를 비롯한 여러 대학에서 인재를 체계적으로 육성하기 위해 데이터마이닝, 비즈니스 데이터 융합학과를 개설하고 있다.

하지만 데이터 전문가를 확보할 수 있다고 하더라도 데이터 제공에 문제가 발생한다면 정상적인 분석이 불가능하다. 원시 데이터를 전수조사할 수 없는 경우가 발생하기 때문이다.

정부 기관이나 병원들의 경우 조직별 데이터베이스에 대한 접근을 철저하게 통제하고 있다. 인터넷에 연결된 상태이지만 각 조직은 망 분리를 통해 접근을 차단하고 있다. 통합할 때 효과를 발휘할 수 있는 것이 빅데이터 분석이지만 통합에 문제가 발생한다면 빅데이터 분석은 결국 빛을 볼 수 없을 것이다.

결국 이때 필요한 것이 물리적으로 네트워크가 분리된 상태에서 규약에 의해 서로 다른 네트워크 간 데이터를 교환하는 기술이다. 물론 이것은 충분히 가능한 기술이지만 조직 간 허용을 필요로 한다. 이를 테면, 다른 병원에 저장된 본인의 진료나 검사 기록을 볼 수 있게 허용하는 식의 접근이 바로 그런 예에 해당된다.

클라우드 기술의 미래도 동시에 이런 문제를 안고 있다. 기술적으로 가능하지만 법적으로나 정치적으로 막혀 있는 장벽을 허물 수 있다면 빅데이터의 미래도 밝을 수 있다. 조직 간의 장벽을 허무는 작업이 이제 진행될 것임에 분명하다.

물론 이런 다음 과정이 진행되는 가운데 해킹의 위험성도 도사리고 있다. 결국 보안 기술도 이런 과정을 포함하도록 진화되어야 한다.

그리고 빅데이터에 대한 환상을 벗을 필요가 있다. 슈퍼컴퓨터와 센서 기술이 아무리 발달해도 기상예보는 여전히 틀린다. 사회현상을 예측하는 방법이나 모델이 발달한다 해도 잘못된 예측은 발생하기 마련이다. 예측 모델도 계속 진화되는 과정을 거치게 될 것이다. 비상식적인 결과가 나올 수도 있기 때문에 모델을 검증하는 기술도 계속 발전하게 될 것이다.

기존에 진행된 하둡 기반의 처리기술은 SQL을 지원하지 않는다는 것이고 심지어 과거에 입증된 방식을 단절을 요구한다. 따라서 기존 소프트웨어와 업무 방식을 바꾸어야만 하고 그에 따른 해법을 찾지 못하면 빅데이터 기반으로 전환가기는 어려울 수밖에 없다.

이런 전환의 당위성에도 불구하고 빅데이터 분석 시장은 전개될 수밖에 없다. 누가 빨리 이런 환경의 변화에 적응하느냐가 미래 정부와 기업의 관건이 될 것이다.
한국 정부와 기업에 건투를 빈다!

◆ 최형선 프로필◆

▲現 테크니컬커뮤니케이션 컨설턴트 ▲前 현대전자 반도체 FA 엔지니어 ▲前 브룩스오토메이션 英文 테크니컬라이터 ▲前 테코이온·다큐멘트코리아 컨설턴트 ▲前 비전아이씨 맥시모 컨설턴트 ▲英文 : 영문 Technical Writing 指針書

 

SNS 기사보내기
저작권자 © 시사매일닷컴 무단전재 및 재배포 금지
주요기사
모바일버전