▲ 한국폴리텍대학 강서캠퍼스 데이터분석과 김영운 교수.
빅데이터는 컴퓨터 처리 능력 향상과 초고속 네트워크 발전으로 새롭게 등장한 기술 분야다.

스마트폰, 태블릿과 같은 스마트 기기들은 IT 기술이 발달함에 따라 사용자들에게 쉽게 보급되고 있다. 스마트 기기를 쓰는 사용자들은 유·무선 네트워크가 발달함에 따라 언제 어디서나 페이스북, 트위터, 블로그, 카페와 같은 소셜 미디어와 포털에 접속해 데이터를 생성하고 있다.

또 우리 주변에서 쉽게 접할 수 있는 장비들은 사물인터넷(Internet of Things) 기술이 발달함에 따라 새로운 정보 등 데이터를 생성하고 있다. 최근 스마트 기기가 늘어남에 따라 발생되는 데이터도 급격히 증가되고 있다.

빅데이터에서 새로운 통찰과 가치를 창출하기 위해 거대한 정보 자원을 종합적으로 분석하고, 데이터에 숨겨진 패턴과 관계를 찾아내 유용한 정보를 발견해 내는 기술이 빅데이터 분석기술이다.

이는 예측, 의사결정, 추론, 시뮬레이션, 상황 인지, 객체 인식 등의 기술을 포함한다. DNA 분석과 같은 생체 데이터 분석, 지리 공간 분석, 위치 기반 분석, 과학적 분석 및 연구 등 방대한 데이터 처리를 필요로 하는 다양한 분야에 응용될 수 있다.

비정형 데이터는 전체 정보 자산의 80%를 차지하고 있다. 이에 대한 분석 능력이 기업 경쟁력의 핵심으로 인식되는 요즘 가장 필요한 분석 방법이다. 이를 분석하기 위해서는 가장 널리 활용되는 통계패키지가 자유 소프트웨어인 R이며 장점은 다음과 같다.

첫째, 어떤 통계 기법을 사용하든 그에 맞는 R 패키지가 이미 내장돼 있고 확장 가능하며 데이터 분석을 위한 자체 도구와 방법을 만들 수 있는 풍부한 기능을 제공한다.

둘째, 그래픽 및 도표 기능에 대해 타의 추종을 불허하는 패키지이다. 데이터 조작과 플롯을 위한 dplyr, ggplot2 패키지 덕분에 작업이 더 편리해졌다

셋째, R은 접근하기 쉬운 언어이다. 프로그래밍 기초에 대한 지식이 없어도 사용가능하다.

이러한 장점을 활용한다면 빅데이터의 가치를 최대한 극대화 시킬 것이다.
 

저작권자 © 시사경제신문 무단전재 및 재배포 금지