빅데이터 출현 배경과 특성 정리

빅데이터 출현 배경과 특성 정리
빅데이터 출현 배경과 특성 정리

빅데이터에 대해서 말씀드리도록 하겠습니다. 빅데이터의 개요부터 분석 방법, 활용 사례, 전망에 대해서 알아보도록 하겠습니다. 빅데이터의 개요입니다. 빅데이터란 용어가 굉장히 요새는 많이 쓰이고 있습니다. 최근에 와서 빅데이터 용어들이 여러 방면에 활용되고 있고 쓰이고 있는데 원래 빅데이터란 무엇인지 한번 알아보도록 하겠습니다. 디지털 환경의 발달로 사람들이 하루에 쏟아내는 천문학적인 양의 데이터들이 있습니다. 스마트폰이 보급되면서 사람들이 많은 정보를 양산, 생산하게 됐습니다. 생산된 데이터양이 2조 기가바이트가 됐고, 생성 주기가 짧고 광범위하고 형태가 다양해서 디지털화된 방대한 양의 정보를 빅데이터라고 부릅니다. 기업에서는 이미 이전부터 소셜 네트워크뿐만 아니라 GPS 기반의 지도정보, 날씨 정보 등 이런 다양한 정보들을 중요한 데이터, 원래 기업이 관리한 데이터 외에 중요한 데이터가 하나 더 있다는 관점에서 빅데이터라는 이름으로 재정의하게 됐습니다. 그러면 빅데이터 시대는 어떤 것이냐면 개인화된 서비스와 소셜미디어의 확산 때문에 기본적으로 인터넷 서비스 환경이 재구성되게 돼 있습니다. 세계 디지털 데이터양이 제타 바이트 수준까지 가고 있고, 2년마다 두 배씩 증가하고 있습니다. 2020년에는 약 40 제타 바이트가 될 것이라고 예측하고 스마트폰의 보급 때문에 데이터가 매우 빠르게 축적되고 그것을 통해서 스마트한 시대를 열어갈 것이라고 얘기합니다. 기존에 있던 데이터 규모가 엑사 바이트에서 제타 바이트로 급격하게 바뀌고 있고 데이터의 유형도 정형 데이터가 많았다면 사물인터넷을 통해서 사물이나 정보나 인지 정보들이 들어가는 형태로 스마트 시대가 열리고 있고 데이터 특성도 구조화된 것으로 시작해서 현실성과 실시간성을 갖게 되는 정보로 바뀌고 있습니다. 결국은 정보 자체가 스마트폰이라는 개인들이 PC를 들고 다니면서 많은 정보가 양산됐고 그거 자체가 다양한 형태로 엮여 있는 것을 빅데이터라고 볼 수 있겠습니다.

빅데이터가 왜 출현하게 됐을까요?

빅데이터의 출현 배경은 크게 두 가지로 볼 수 있겠습니다. 첫 번째로는 데이터가 실제로 증가한 것입니다. PC나 인터넷 보급이 많아지고 모바일 기기나 스마트폰의 이용이 많아지면서 많은 정보가 나오게 됐습니다. 인터넷 뱅킹, 온라인 쇼핑, 유튜브, SNS 등에 대한 많은 데이터가 쌓이게 됐고 영상정보라고 하는 교통이나 방범 CCTV의 정보들도 많이 쌓이게 됐고 공공데이터의 개방 측면에서도 공공에 있던 데이터들도 일반인이 사용할 수 있을 정도로 많이 개방이 됐다고 볼 수 있겠습니다. 그런 하나의 축이 있다면 다른 하나의 축은 처리 기술이 발전됐다고 볼 수 있습니다. 기존에 대량의 데이터를 분석하고 빠른 시간 내에 결과를 내는 것들이 필요했는데 필요한 내용들이 기술적인 발전을 통해서 실제로 컴퓨팅 파워가 증가됐다고 볼 수 있겠습니다. 그래서 스마트폰이 도래하게 되고 스마트폰과 기술의 결합을 통해서 데이터를 분석할 수 있는 환경이 된 것입니다.

빅데이터의 특성

빅데이터의 특성이 뭐냐고 할 때 3V 또는 4V, 5V 이렇게 V로 얘기합니다. 3V 안에 들어가는 것이 규모에 해당되는 것이 있고, 속도 velocity, 다양성이라고 하는 variety가 있습니다. 3V는 규모에 해당하는 Volume, velocity, variety이 있고, 거기에 하나 더 붙여서 정확하게 나와야 한다는 의미에서 정확성 측면 가치를 줘야 한다는 value의 가치 측면, 정확성의 veracity 측면 등이 3V, 4V 이런 식으로 얘기하고 있습니다. 그러면 크기 Volume은 어떤 것에 해당하게 될까요. 일반적으로 수십 테라바이트(terabyte) 혹은 수십 페타 바이트(petabyte) 이상의 빅데이터가 그 범위에 해당하고 그것 이상은 제타 바이트로 얘기하는데 1페타 바이트는 어떤 크기냐면, 6GB DVD 영화를 17만 4천 편을 담을 수 있는 용량입니다. 거대한 용량입니다. 그런 용량의 크기들, 많은 크기가 쌓인 것들을 분석해야 되는 것이 되겠습니다. 기존에 크기 측면에서 볼 때 우리가 한 가지 알아야 할 것이 있는데 빅데이터 분석을 하면서 하둡이라든지 하드웨어적인 요소를 많이 얘기합니다. 빅데이터가 크기가 크다 보니 기존의 데이터 웨어하우스나 데이터 스토어, 데이터 웨어하우징 측면에서 데이터를 저장하는데 어느 한 공간에 저장하기는 어렵습니다. 그렇기 때문에 다양한 곳에 흩어진 데이터들을 마치 하나의 데이터처럼 보일 수 있게 만들어 주는 것들이 중요합니다. 분산된 데이터들을 하나의 데이터로 볼 수 있게 하는 것이 필요한데 그것을 분산 컴퓨팅이라고 하고 그런 분산 컴퓨팅이 필요하다. 그 정도 크기다 이렇게 볼 수 있겠습니다. 분산 컴퓨팅 설루션에는 구글의 GFS, 아파치의 하둡 등이 있겠습니다. 빅데이터의 특성 중 속도 측면은 실시간 처리와 장기적인 접근으로 나눌 수 있는데 오늘날 디지털 데이터들은 빠른 속도로 생성됩니다. 데이터의 수집, 저장, 분석 등이 실시간으로 되어야 하고 하지만 실시간으로 처리하는 것이 다는 아니라는 것입니다. 수집된 대량의 데이터를 다양한 분석 방법과 표현 기술로 분석해야 하는데, 이것은 장기적이고 전략적인 차원에서 접근할 필요가 있는 것입니다. 속도가 빠르게 쌓이고 있는 데이터에 대해서 실시간으로 대응해야 하는 측면도 있지만 쌓인 데이터들을 창의적인 관점, 새로운 관점으로 해석할 필요가 있다는 것이 되겠습니다. 다양성 측면에서는 데이터는 정형화된 정도에 따라서 정형 데이터, 반정형 데이터, 비정형 데이터라고 볼 수 있는데, 정형 데이터는 한정된 필드가 있는 것입니다. 주민등록번호, 주민번호라고 하는 필드가 있으면 한정된 필드가 정형화되어 있는 것입니다. 반정형 데이터는 고정된 필드를 사용하지 않고 XML이나 HTML같이 메타데이터나 스키마를 포함하는 반정형 데이터라 하고, 비정형 데이터는 고정된 필드로 저장하지 않고 사진이나 동영상과 같이 다양한 형태로 데이터들이 쌓이게 되는 것들이 빅데이터의 특성 중에 다양성이라고 볼 수 있겠습니다.

기존의 데이터 관점과 빅데이터의 관점 비교

기존의 데이터 관점과 빅데이터의 관점에 대한 비교입니다. 데이터 원천은 정보시스템, 정보서비스라고 볼 수 있고, 빅데이터는 일상화된 정보서비스가 되겠습니다. 전통적 데이터들의 목적은 업무의 효율화가 되고, 빅데이터는 사회적 소통과 자기표현, 사회 기반 서비스가 빅데이터로 활용하게 되고, 그렇다면 전통 데이터의 주체는 정부나 기업 등의 조직이었다면 빅데이터는 개인이나 시스템 등의 개인적인 측면이 되겠습니다. 데이터 유형 측면도 전통적 데이터는 정형 데이터들이 주로 많았고 빅데이터는 비정형 데이터, 공개 데이터 일부, 조직 외부 데이터들을 일부 활용할 수 있습니다. 데이터 특징으로는 신뢰성이 아주 높은 핵심 데이터가 정통 데이터였다면 빅데이터는 기하급수적으로 증가하면서 쓰레기 데이터도 많이 있고 문맥이나 다양한 데이터들에 대한 분석도 필요하다고 합니다. 데이터의 보유 측면은 주로 정부나 기업이 보유하고 있다면 이제는 인터넷 서비스 업체나 포털, 이동통신 업체, 디바이스 생산 업체들이 가지고 있다고 볼 수 있습니다. 데이터를 다운로드하거나 분석할 수 있는 틀에 대한 데이터 플랫폼 같은 경우는 정형 데이터를 생산, 저장, 분석, 처리할 수 있는 정통적인 플랫폼이 있었다면 빅데이터는 비정형 데이터들을 생산, 저장, 분석, 처리할 수 있는 새로운 플랫폼이 필요하다고 얘기하고 있습니다. 이상으로 빅데이터의 개요에 대해서 말씀드렸습니다.

+ Recent posts