본문 바로가기

빅데이터가 뭐지?

 

요즘 뉴스를 보면 '빅데이터(BigData)'라는 말이 심심치 않게 등장합니다. 데이터라는 말은 일상에서 자주 사용하지만,빅데이터의 정확한 뜻을 아는 사람은 많지 않습니다.

 

"빅데이터 활용해 법인 고객에게 맞춤형 혜택 제공" - 경향신문 2013.04.03

"소방방재청, 빅데이터 활용해 재난 예방" - ZDNet Korea 2013.04.02

"건보공단, 빅데이터 활용 세미나 개최" - 뉴시스 2013.03.21

"오바마 승리 이끈 '빅데이터 선거' - 디지털타임스 2013.03.06

"현대카드, 소비트렌드 알려주는 '빅데이터 프로젝트' 시행 - 2012.12.04

 

위의 기사들은 빅데이터에 관련된 것으로서, 관련 분야도 매우 다양합니다. 금융, 정치, 사회, 경제 등 모든 분야에서 활용이 가능한 빅데이터는, 이미 우리 생활에 적용되어 있으나 인식만 하지 못할 뿐입니다.

 

이제부터 빅데이터가 무엇이고, 우리의 생활에 어떻게 적용되고 있는지 알아보겠습니다.

 

1. 빅데이터란?

 

데이터(data)라는 말은 많이 들어보셨을 겁니다. 데이터의 사전적 의미는 다음과 같습니다.

 

일반적으로 데이터는 숫자로 이루어져, 분석이 쉬운 자료를 말합니다. 영업 사원의 매출 실적, 설문 자료, 연구 결과, 도표 등이 데이터를 나타내는 대표적인 것들입니다. 하지만 이런 정형화된 데이터인 숫자만으로는 범위와 수집의 한계가 있습니다. 모든 자료가 숫자로만 이루어진 것도 아니기 때문입니다.

데이터의 사전적 의미 1번을 보면, 이론을 세우는데 기초가 되는 사실 또는 자료라고 되어 있습니다. 정확한 이론을 세우려면 그만큼 많은 자료가 필요한데, 기존의 데이터만으로는 한계에 부딪히게 된 것입니다.

 

이제는 데이터에 대한 정의를 새롭게 해야 한다는 필요성을 느끼고 등장한 것이 빅데이터입니다. 빅데이터에는 숫자 데이터뿐만 아니라 문자 데이터, 이미지 데이터, 영상 데이터, 위치 데이터 등 모든 내용이 포함되어 있습니다. 우리가 포털사이트에서 어떤 내용을 찾기 위해서 검색하는 단어, 쇼핑몰에서 클릭해본 상품, 유튜브에서 오랫동안 감상한 동영상. 이 모든 것이 빅데이터에 포함되는 것입니다.

 

빅데이터의 특징을 말할 때 3V라고 합니다. 양(Volume), 생성 속도(Velocity), 다양성(Variety)을 의미하며 최근에는 가치(Value)도 포함하여 4V라 하기도 합니다.

 

데이터의 양적인 측면을 보면, 2012년 전 세계 데이터 규모는 2.7 제타바이트(zetabyte)였습니다. 1제타바이트는 1,000엑사바이트 이고 1엑사바이트는 1,000페타바이트, 1페타바이트는 1,000테라바이트입니다. 2.7 제타바이트는 우리가 PC에서 사용하는 1테라바이트 하드디스크 27억 개 분량을 가득 채울 수 있는 어마어마한 양입니다.

 

 

<SNS의 등장으로 데이터 생성 속도는 비약적으로 빨라졌습니다>

 

생성 속도는 두말할 나위도 없습니다. SNS가 활성화되면서 페이스북이나 트위터를 통해 생성되는 포스트의 수는 수억 건에 이르고, 유튜브, 블로그 등도 말할 것이 없습니다. 데이터의 생성 속도가 점차 빨라지게 된 계기는 모바일 플랫폼의 발전도 한 몫하고 있습니다. 스마트폰과 태블릿의 보급률은 PC와 노트북의 보급률을 넘어서게 되었고, SNS를 통해 무심코 남긴 댓글 하나까지도 모두 빅데이터에 포함되기 때문입니다.

 

마지막으로 다양성은 빅데이터를 표현하는 가장 핵심적인 요소입니다. 앞서 설명했듯이 빅데이터에는 숫자 데이터뿐만 아니라 CCTV 자료, 나의 위치 정보, 검색어, 쇼핑몰의 장바구니, SNS 포스트, 질문답변 게시물, 길 찾기 검색 등 개인의 모든 행적이 포함되어 있습니다.

 

그리고 데이터와 빅데이터의 처리 목적은 엄연히 다릅니다. 기존의 데이터가 과거의 내용을 정리해서 보여주는 것이었다면 빅데이터는 미래를 예측하거나 맞춤형 서비스를 위함입니다. 미래를 예측한다는 것은 먼 미래에 지구가 언제 멸망할 것인지를 말하는 것이 아닙니다. 당장 눈앞의 일을 예측하기 위한 자료를 모으는 일을 말합니다. 이것은 기업의 마케팅 활동에 아주 중요한 자료가 될 수 있습니다.

 

이처럼 빅데이터는 빠르게 생성되는 방대하고 다양한 데이터라는 특징을 갖고 있습니다.

 

2. 빅데이터 구성 요소

 

빅데이터를 활용하기 위해서는 최소한 3가지 요소가 필요합니다. 빅데이터가 있어야 하고, 빅데이터를 처리할 기술이 필요하며, 빅데이터를 분석할 인력이 있어야 합니다. 이 3가지 요소 중 하나라도 없다면 빅데이터는 그냥 쓰레기가 될 뿐입니다.

 

 

<빅데이터 3대 구성 요소>

 

앞서 살펴봤듯이, 빅데이터의 생성 속도는 매우 빠르고 그 양도 엄청납니다. 이 데이터들을 빨리 처리해서 자료화하지 않으면 쌓여 가는 데이터를 감당할 수 없게 됩니다. 하드웨어로 이를 극복하려면 막대한 비용이 들어가기 때문에 소프트웨어를 이용하여 이를 처리하는 것이 효과적이고 비용도 절감됩니다.

 

빅데이터 처리를 위한 소프트웨어로는 '하둡(Hadoop)'이 있습니다 . 하둡은 대용량의 데이터 처리를 위해 개발된 오픈소스 소프트웨어이기 때문에 무료로 사용할 수 있다는 것이 특징입니다. 하둡의 중요 구성 요소는 '분산파일 시스템'과 '맵리듀스(Mapreduce)'입니다. 분산파일 시스템은 여러 대의 컴퓨터에 데이터를 저장하는 기술입니다. 이 시스템은 데이터의 빠른 저장을 목적으로 합니다.

 

맵리듀스(Mapreduce)는 데이터를 저장하고 처리하는 두 단계 과정을 말합니다. 맵 과정에서는 결과를 추출하고 병합하고, 리듀스 과정에서는 최종 결과 값을 만들어냅니다.

맵리듀스의 처리 과정을 설명하는 예시에 자주 등장하는 것은 문자의 수를 계산하는 카운팅 프로그램입니다. 실제 이 방법을 이용하면 검색 사이트에서 실시간 검색어 순위나 오늘의 인기 검색어 등을 보여줄 수 있습니다.

 

여기에서도 문자의 단어 수를 카운팅하는 예를 들어 보겠습니다.

 

<맵리듀스 과정을 보여주는 예시>

 

'가장 넓은 커버리지를 갖고 있는 LTE, LG유플러스 LTE'라는 단어의 수를 계산하기 위해 프로그래머는 문장에서 단어를 추출하는 프로그래밍을 합니다.

 

맵 단계에서는 각각의 시스템에 할당된 문장을 분석하여 어떤 단어가 있고 몇 개나 있는지 계산하고, 마지막으로 각 시스템의 결과 값을 취합하여 중간 결과 값을 내놓습니다. 그리고 리듀스 단계에서는 중간 결과 값을 받아서 최종적인 값을 도출합니다.

 

그러나 데이터는 그냥 데이터일 뿐입니다. 데이터를 모으고 분석하여 실생활에 적용하는 사람들을 데이터 과학자라 합니다. 프로그래머는 단지 도구를 만드는 사람에 불과하지만, 실제 도구를 이용하는 사람들은 데이터 과학자입니다. 방대한 자료를 모은다는 것도 쉽지 않지만 이를 분석하고 활용할 수 있는 능력은 하루아침에 만들어지는 것이 아닙니다.

국내에서도 데이터 과학자를 양성하기 위한 교육 과정이 있지만 아직은 충분하지 않고 이제 걸음마 단계에 있습니다. 빅데이터를 위한 데이터 과학자의 수요는 갈수록 많아질 것이 분명하기에 우리나라도 더 많은 교육시설의 확충과 산학연계를 통해 교육과 실무가 결합한 교육이 필요합니다.

 

3. 빅데이터의 활용

 

빅데이터의 활용은 우리가 생각지도 못한 곳에서 이루어집니다. 가장 먼저 관심을 보이는 곳은 인터넷 서비스 업종입니다. 구글이 빅데이터 분야에서 가장 앞서 있으며 실제 자사의 서비스에도 이를 적용하고 있습니다. 국내 No.1 포털 네이버도 빅데이터를 활용하고 있습니다. 이런 검색업체가 빅데이터에 유리한 이유는 방대한 데이터의 수집에 있습니다. 지금 이 순간에도 데스크톱, 노트북, 스마트폰, 스마트패드를 이용하여 네이버에서 어떠한 검색을 하고 있기 때문입니다. 데이터가 많다면 그만큼 정확한 결과 값을 만들어 낼 수 있고, 이를 활용하여 신규 서비스도 만들 수 있습니다.

 

도입부에서 언급한 뉴스 중 하나를 보겠습니다.

 

"현대카드, 소비트렌드 알려주는 '빅데이터 프로젝트' 시행 - 2012.12.04

 

현대카드에서 빅데이터를 이용해 개인에게 맞는 서비스를 제공한다는 내용의 이 뉴스는, 천 만 명 가까운 자사 회원들의 카드 전표를 분석하여 재미있는 결과를 내놓았습니다. 커피전문점의 매출을 분석한 결과 60%가 남성이고 40%가 여성이며, 20대에서만 여성이 남성보다 많이 이용한다는 것이었습니다. 그리고 항구도시 부산의 외식 비중이 일식보다는 양식이 더 높다는 결과도 함께 발표한 적이 있었습니다.

 

 

이 데이터를 이용하면 현대카드는 새로운 카드 상품을 만들 수 있습니다. 남성들을 위해 커피전문점에서 할인이나 포인트 적립을 더 받을 수 있는 카드나, 부산지역 거주자를 대상으로 양식 요릿집에서 더 유용하게 사용할 수 있는 카드 상품을 만들 수 있습니다.

 

"소방방재청, 빅데이터 활용해 재난 예방" - ZDNet Korea 2013.04.02

 

또 하나의 기사를 보겠습니다. 소방방재청에서 빅데이터를 이용해서 어떻게 재난을 예방한다는 것일까? 소방방재청은 재난 구조보다 예방에 더 힘쓰고 있습니다. 만약 재난이 일어날 것 같다면 사전에 예방함으로써 피해를 최소화할 수 있습니다. 마치 예전에 개봉했던 '마이너리티 리포트'처럼 말입니다.

 

 

소방방재청은 재난 예방을 위해 CCTV, 강우량, 수위와 같은 비정형 데이터를 포함해서 SNS, 언론보도 등의 텍스트 데이터까지 실시간 수집하고 분석하여 재난을 예방하고 발생했을 때 빠른 대응을 한다는 것입니다. 요즘은 언론보도보다 트위터나 페이스북 같은 SNS가 더 빠르게 소식을 전하고 있습니다. 이런 사건·사고 소식을 빨리 접할 수 있다면 그만큼 피해를 줄일 수 있게 되는 것입니다.

 

이 외에도 온라인 쇼핑몰에서 쇼핑객들이 검색하는 단어나 관심 있게 지켜본 상품들을 분석하여 첫 페이지에 집중적으로 배치함으로써 매출을 올릴 수도 있고, 내비게이션에 적용하여 실시간 교통정보를 더 빠르게 적용할 수도 있습니다. 지금 설명한 것들은 빅데이터를 이용한 아주 작은 예에 불과합니다. 데이터 과학자들은 우리가 무심코 지나친 작은 데이터 하나까지도 분석하여 새로운 가치를 찾아낼 것이고, 이를 활용하여 우리가 상상도 못할 서비스를 만들어 낼 것입니다.

 

지금까지 빅데이터에 대한 간단히 알아봤습니다. 미국의 시장조사기관 가트너는 "데이터는 미래 경쟁력을 좌우하는 21세기 원유"라고 했습니다. 정제 과정을 거치지 않은 원유를 자동차에 넣고 바로 사용할 수 없듯 데이터도 가공하지 않은 상태에서는 아무런 의미도 없습니다. 빅데이터는 가공하기에 따라 우리 생활에 원유보다 더 높은 가치를 부여할 수도 있을 것입니다.