빅데이터 분석 방법과 종류

빅데이터 분석 방법과 종류
빅데이터 분석 방법과 종류

빅데이터의 분석 측면에서 빅데이터를 어떻게 분석할 것이냐에 대해서 한 번 알아보도록 하겠습니다. 빅데이터를 분석하는 관점은 크게 두 가지가 있습니다. 첫 번째는 비즈니스 분석 관점입니다. 현재의 현상과 결과적인 관점을 제시하는데 초점을 두는 현재 현상이 어떻게 됐고 그것이 어떻게 반영되고 있는지 그런 비즈니스 분석 관점이 있고, 고급 분석 관점은 대용량의 데이터로부터 이때까지 알려지지 않았던 몰랐던 그런 숨겨진 패턴을 발견하고, 상황 자체를 미래를 예측할 수 있는 것이 될 수 있고 의미 있는 데이터의 패턴을 식별하는 것입니다. 숨겨진 패턴이 있되 그것이 의미가 있어야 하는 것입니다. 미래의 품질 수준이 어떻게 될지, 어떤 형태로 되면 어떤 용도로 올라갈 수 있을지 예측할 수 있는 모델에 근거해서 예측하게 된다는 것입니다. 비즈니스 분석 부분에 있어서는 현재나 과거 실적을 분석한다면 그걸 통해서 미래를 어떻게 해야 되는지 이런 부분들이 고급 분석 쪽에 속한다고 볼 수가 있겠습니다.

빅데이터를 분석 과정

빅데이터를 분석하는 데 있어서 어떤 과정을 겪게 될까요. 첫 번째는 데이터를 수집하는 단계가 있습니다. 내부정보, 외부정보에서 우리가 원하는 데이터를 수집합니다. 그래야 분석 대상이 되기 때문에, 그런데 여기서 중요한 것은 뭐냐면 외부 데이터도 분석의 대상이 된다는 것입니다. 내부 데이터만 분석 대상이 되는 것이 아니라 그것을 서로 연관 관계해서 외부 데이터 부분도 분석할 수 있고 데이터 저장관리를 해야 합니다. 데이터를 모은 다음 그중에서 유효한 데이터가 뭐가 있는지 그 데이터를 어떻게 분산된 데이터를 하나로 볼 것인지, 분산된 데이터를 어떻게 관리할 것인지가 되고 그것을 통해서 우리가 데이터 분석을 하게 됩니다. 키워드를 추출한다든지 키워드에 대한 통계를 낸다든지 데이터가 어떻게 그룹으로 되어있는지 군집 분석을 한다든지 이런 것들이 되고 그런 분석이 끝나면 분석을 통해서 나온 결과를 활용하는 단계가 되겠습니다. 보시면 데이터 수집 단계에서는 Web Crawler라고 하는 tool을 사용하게 되고, 데이터를 저장하는 데 있어서 하둡이 쓰이게 되고 데이터를 분석하는 데는 Text Mining, Natural language processing(NLP, 자연어 처리 부분), Real time analysis 등의 방법들을 쓰게 되고 결과를 제시하는 데는 통계적인 방법, 데이터 시각화라고 하는 시각화 해서 도표로 나타나는 방법이 쓰이고 있습니다.

빅데이터의 분석방법 - 텍스트 마이닝

빅데이터의 분석방법에는 대표적인 것으로 무엇이 있을까요. 첫 번째로는 텍스트 마이닝(Text mining)이 있습니다. 정형화된 데이터를 분석하는데 데이터 마이닝과 비슷한 기법인데 이것이 언어라는 것입니다. 자연어 처리 기술을 바탕으로 해서 비정형 텍스트 데이터로부터 가치와 의미를 찾아내는 기술입니다. 텍스트가 가진 카테고리를 알 수 있고, Opinion Mining이라고 하는 평판 분석이 있습니다. SNS, 블로그, 게시판 등에 있어서 인터넷상의 모든 웹 문서나 의견을 분석해서 그에 맞는 제품이나 서비스에 대한 평판을 추출해 내는 평판 분석이 있습니다. 소셜 네트워크 분석이라고 하는 개인 또는 그룹의 네트워크 영향력이나 관심사, 성향의 패턴을 분석하고 추출해 내는 소셜 네트워크 분석이 있고 클러스터 분석, 비슷한 특성을 가진 개체를 합쳐 나가면서 최종적으로 유사한 그룹을 만들고 그것을 나눠보고 할 수 있는 유사한 그룹을 발굴하거나 관심사나 취미에 따른 사용자 그룹을 군집을 통해 분류하는 것입니다. 여러 개의 집단으로 차이를 보이는 집단을 분석해 내는 것을 클러스터 분석이라고 볼 수 있겠습니다. 텍스트 마이닝에 대해서 알아보도록 하겠습니다. 텍스트 문서가 있다고 하면 텍스트 문서는 거기에 명사도 있고, 접속사 등 여러 가지 내용이 있습니다. 텍스트 문서가 있고, 특수문자가 있어서 텍스트 전처리를 통해서 그중에 명사, 단어들을 뽑아내는 부분이 있고 거기에 대해서 의미 정보로 변환할 수 있습니다. 긍정적, 부정적이라는 의미 정보로 변환할 수 있고, 그것으로부터 의미 정보를 추출하게 되고, 패턴이나 경향을 분석하게 됩니다. 그것을 통해서 정보를 표현하고 평가하는 단계가 되겠습니다. 텍스트 데이터가 있으면 텍스트 데이터 전처리를 통해서 또는 그 단어가 가지는 의미에 대해서 Semantic을 넣기도 합니다. 그것을 텍스트 마이닝이라고 할 수 있겠습니다. 어떤 문서가 있으면 가장 많은 키워드가 어떤 것이고 몇 회 정도 나왔고 최고로 많이 나온 단어가 무엇이고 그것들이 어떤 형태로 서로 엮어있는지 이런 것들도 보여줄 수 있는 것이 되겠습니다.

빅데이터의 분석방법 - 오피니언 마이닝

오피니언 마이닝은 간단하게 설명드릴 수 있겠습니다. 모든 제품 상품평을 읽기가 힘들다 그러니까 내가 사고 싶은 상품 두 개가 있는데 그 두 개의 긍정, 부정이 어떻게 되는지 한번 보겠다. 그렇게 볼 수 있겠습니다. 오피니언 마이닝을 하면 내가 사고 싶은 디지털카메라가 두 가지 있는데 한 가지는 긍정이 209, 부정이 89개, 다른 한 가지는 긍정이 146, 부정이 32. 그래서 어떤 부분에 대한 긍정이 많은지 부정이 많은지에 있어서 서로 비교할 수 있는 것들이 오피니언 마이닝에 속한다고 볼 수 있겠습니다.

빅데이터의 분석방법 - 감성 분석

감성 분석이 있습니다. 감성 분석은 오피니언 마이닝의 또 다른 형태인데, Sentiment analysis라고도 부릅니다. 뭐냐면, 주어진 문서가 오피니언 자체를 추출하려면 그것이 긍정적인지 부정적인지 알아야 합니다. 그것에 따라서 어떤 것들이 있냐면, DS Lap에서 만든 감성 분석을 서울대 심리학과에서 만든 감성 수치 사전이 있습니다. 그것을 통해서 6가지 감성으로 확장되는 것입니다. 단어에 대한 감성 틀이 있으면 형태소 분석 결과를 프로그램을 통해서 어떤 감정이라는 것을 알 수 있는 것입니다. 감성 분석의 예로는 매드 맥스라는 영화 재미있었지? 그러면 긍정은 2. 287, 부정은 0, happiness는 2. 833 이런 식으로 해서 그 내용 자체에 대한 긍정, 부정의 내용, 거기에 대한 감정이 어떤 것들이 들어가 있는지 이렇게 얘기할 수 있겠습니다.

빅데이터의 분석방법 - 소셜 네트워크

소셜 네트워크 분석인데, 망에 대한 분석입니다. 사람들이 연결되어있는데, 그 연결들이 어떻게 되어있는지. 예를 들어 페이스북에 친구가 돼 있는 데 친구이고 얼마나 빈도로 서로 맨션을 하고 언급하고 서로 상호 작용을 하는지 네트워크 형태로 나타내는 것입니다. 그렇게 되면 여러 가지 선과 점으로 연결된 네트워크 분석이 일어나게 되는데 크게는 네 가지의 목적을 위해서 소셜 네트워크 분석을 하고 있습니다. 어떤 점이라고 하는 사람이 어떤 영향력이 있는지, 중앙에 있어서 어떤 영향을 갖는지 그 사람하고 관계가 어떻게 되는지 관계 경로를 분석하고, 서로 떨어져 있는 형태로 군집들처럼 마치 네트워크가 형성되면 그 커뮤니티가 몇 개가 존재하는지에 대한 파악, 키맨들이 몇 개 있고, 키맨을 중심으로 커뮤니티가 어떻게 형성되었는지 파악할 수 있고, 그다음에 왜 그렇게 뭉쳐있는지 사회적인 어떤 역할을 하고 있는지에 대해 그게 뭉쳐지게 된 요소가 어떤 것 때문에 뭉쳐있는지에 대해 분석하는 그런 것들이 소셜 네트워크의 분석 예라고 볼 수 있겠습니다.

빅데이터의 분석방법 - 군집분석

군집 분석은 뭐냐면, 군집이라는 것은 일종의 원소들 어떤 형태를 가진 것들이 서로 비슷한 것들이 모여있는 것을 군집이라고 합니다. 군집 분석이란 어떤 목표가 있는 것이 아니라 서로 차이가 있는 것을 집단으로 나눠주는 것, 그것이 군집 분석입니다. 군집 분석을 왜 하게 될까요? 몇 개의 집단으로 나누어져 있는지, 그 집단을 우리가 해석하는 그런 관점에서 군집 분석을 하게 되고 군집이 왜 이렇게 분류할 수 있는지 역으로 계산해서 군집할 기준이라든지 어떤 변수들로 활용할 수 있는 형태로 쓰이기도 합니다. 이상으로 빅데이터에서 활용되는 여러 가지 분석방법에 대해서 알아봤습니다.

+ Recent posts