빅데이터 처리의 시작은 데이터 생성 또는 수집이라고 할 수 있습니다. 전통적인 데이터베이스(DB) 환경에서는 외부에서 데이터를 가져오기보다는 DB의 프론트엔드인 애플리케이션에서 데이터가 생성되면서 처리가 시작되어지고, 반면 빅데이터는 내부에서 데이터가 생성되기보다는 외부의 데이터를 가져오면서 처리가 시작되어집니다. 빅데이터 환경에서 데이터 처리는 데이터 수집에서 시작한다고 할 수 있습니다.
빅데이터수집 엔진(Tornado)은 능동적인 방식과 수동적인 방식 둘 다 고려한 빅데이터수집 엔진으로 방대한 딥웹(Deep Web)과 SNS, 쇼핑 사이트, IoT, 스트리밍 데이터 등의 다양한 산업군에서 생성되는 빅데이터에서 사용자가 원하는 빅데이터를 실시간 자동, 병렬 수집이 가능한 강력한 빅데이터수집 처리 엔진입니다. 실시간 소셜 빅데이터분석, 경쟁자 분석, 시장 및 제품 분석, 위험 관리 및 고객 목소리 분석을 위한 최적의 빅데이터수집 환경을 제공하고 있습니다.
데이터의 유실과 중복 방지, 데이터 압축, 데이터 정형화, 저장된 데이터의 암호화, 무결성 검증, 사용자 편리성 등을 고려하여 보다 강력한 웹 수집 기능뿐 아니라 가려져 있는 웹 페이지로부터 빅데이터를 자동 추출하고 변환 저장합니다. 웹 데이터뿐 아니라 뉴스, RSS, 트위터, 페이스북 등의 소셜 빅데이터수집이 가능한 수집엔진으로 현존하는 가장 강력한 대용량 빅데이터수집 엔진입니다.
< 빅데이터수집 엔진 개념도 >
정형 및 빅데이터의 지능형 융합 분석에 필요한 다양한 형태의 내•외부 데이터 수집 처리를 하기 위하여 Big Data Suite의 빅데이터수집 엔진(Tornado)은 사용자 시나리오 기반 수집, RSS 기반 수집, 심층 웹 수집, 메타 검색 수집, 소셜미디어 수집, OpenAPI 수집 기능을 제공합니다. 사용자가 정의한 수집 업무를 수집 엔진 내부 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 수행할 수 있으며, 실제 운영 시 수집이 실행되는 동안 실시간으로 수집 결과를 모니터링 할 수 있는 스케줄링 기능, 상태 모니터링 기능, 운영관리자 기능을 제공하고 있습니다.
< 수집 엔진 동작 절차 >
< 소셜미디어 수집 결과 >
< 소셜미디어 수집 생성 및 설정 >
< 수집처리엔진 상태 모니터링 대시보드 UI_UX >
< 시뮬레이터_데이터 미리보기 >