▲ 한국폴리텍대학 서울강서캠퍼스 데이터분석과 이협건 교수.
인터넷과 컴퓨터의 급속한 발전으로 이제는 많은 양의 데이터를 쉽게 수집할 수 있다.

현재 여러 기업과 연구 기관에서는 방대한 양의 데이터를 분석하는 방법을 활발히 연구 중이다. 특히 매 순간 엄청난 양의 데이터를 만들어 내는 소셜 네트워크 서비스의 영향으로 빅데이터라는 용어가 등장 했다.
 
그러나 빅데이터들은 텍스트, 사진, 소리, 동영상 등과 같은 비정형 데이터로 구성돼 의미 있는 정보나 지식을 얻기 어렵다. 또 정형화된 데이터를 처리하는 데 더 적합한 기존 데이터 수집 기술로는 수많은 비정형 데이터를 수집하고 통합하는 것은 사실상 불가능하다.
 
기존의 데이터베이스 관리 시스템은 방대한 양의 데이터를 처리하는데 처리 비용이 많이 발생한다. 하드웨어 성능을 향상시키는데 시간을 많이 투자해 기존 시스템의 여러 부분을 변경해야 한다.
 
특히 비용의 측면과 데이터 저장의 기준에서 기존의 관계형 데이터베이스 관리 시스템(Relation DataBase Management System; RDBMS)에서 가지는 테이블 스키마 구조는 가공이 되기 전 단계의 비정형 데이터를 입력하기가 힘들다. 뿐만 아니라 분석을 위해 처리과정을 거칠 때에도 구조상의 문제로 인해 중복 쿼리(Query)등으로 출력 값 자체에서 오류를 가져오거나 비용이 많이 드는 문제점이 발생될 수 있다.
 
이러한 기존 관계형 데이터베이스 관리 시스템의 문제를 보완하고 비정형 데이터를 처리하는 어려움을 해결하기 위해서는 비정형 데이터의 특성을 파악해야 한다. 여기에 여러 시스템에서 파일을 수집, 저장 할 수 있도록 분산 처리를 중심으로 설계해야 한다. 그리고 각 단계마다 서로 다른 언어와 API(Application Programing Interface)를 요구할 수 있다는 점을 고려해야 한다.
 
이렇게 수집된 비정형 데이터를 분석에 적합한 형태로 변환하는 발전된 융합 기술은 반드시 필요하다.
 
 
저작권자 © 시사경제신문 무단전재 및 재배포 금지