빠르게 발전하는 컴퓨팅 기술을 기반으로 디지털 데이터의 수집, 분석 및 활용 기술 또한 발전하고 있다. 특히 과거 소규모의 데이터를 이용한 분석만이 아닌 대규모 데이터를 활용 가능한 빅데이터 분석이 가능해지면서 새로운 연구 패러다임을 제시하고 있다.

과거 데이터를 생성, 처리, 분석 및 저장하는 과정에서 상당한 어려움과 비용이 소모되어 데이터의 연속성, 수집범위 그리고 양적 측면에서 한정된 데이터만을 처리할 수 있었던 아날로그 데이터의 한계점들을 극복하여 복잡하고 다변화되어 있는 사회현상에 대한 추가적인 해석 및 이해를 제공하는 사회과학영역에서 유용한 도구이다.

이에 맞춰 DCRC에서는 사회과학 연구에서의 디지털 데이터 기반 분석 연구 및 프로젝트들을 활발히 진행하고 있으며, 대표적인 연구 사례로는 제21대 국회의원선거를 대비하여 중앙선거관리위원회와 진행한 권역별 유권자 생활의제 추출 연구가 있다.

선거구 단위의 대표를 선출하는 국회의원선거가 공약에 기반하여 합리적이고 공정하게 이뤄지기 위해서는 중앙 정치가 아닌 선거구 또는 권역단위에서 유권자들의 생활환경에 부합하는 선거공약 및 의제의 형성이 요구된다.

따라서 후보자들에게 지역 현안 및 의제에 대한 정보를 제공하기 위하여 디지털화되어 있는 대량의 권역별 언론기사 수집하고 파이썬을 활용하여 분석 및 시각화를 진행하였다.

그림입니다.

원본 그림의 이름: 12.JPG

원본 그림의 크기: 가로 946pixel, 세로 586pixel
분석 데이터에 대한 시각화 예시 – 워드클라우드

전체 데이터를 수집 한 후, 파이썬 한글형태소 분석 패키지인 ‘KoNLPy’를 활용하여 명사만을 추출하고, 특정 인물명, 부사, 형용사 등의 불용어를 제거하는 전처리 과정을 거쳐 데이터를 정제하였다. 이후 최다빈출어를 도출하여 파이썬 ‘WordCloud’ 라이브러리를 사용하여 워드클라우드를 만들어내었다.

네트워크 분석 예시

두 번째로 핵심이 되는 최다빈출어를 중심으로 각각 관련성 있는 빈출어의 연관성에 관한 정보를 추가적으로 제공하기 위하여 공출현 키워드들을 산출하고, 이를 바탕으로 네트워크 이미지에 반영할 수 있도록 하였다. 마지막으로 대용량 데이터에서 관통하는 주요 주제를 발견하고 어떻게 연결되는지 등을 파악할 수 있도록 돕기 위하여 토픽모델링을 활용하였다.

LDA 토픽모델링 분석 예시

토픽모델링을 통해 의미를 구성하는 최소단위의 텍스트 구성요소를 파악한 후, 구성요소에 수학적 연산과정을 적용시켜 어떤 텍스트 구성요소가 텍스트를 주도적으로 설명하는지, 관통하는 주제가 무엇인지에 대한 정보를 제공하고자 하였다. 해당 연구에서는 토픽모델링 모형 중 가장 기본적인 잠재디리클레할당(Latent Dirichlet Allocation, LDA)을 사용하였으며, 파이썬 ‘gensim’ 라이브러리를 활용하여 17개 권역별 토픽모델링 결과에 대한 시각화를 제공하여 지역별 중심 의제 파악에 대한 인사이트를 제공하였다.