문의하기

수집 엔진 Tornado

빅데이터 처리의 시작은 데이터 생성 또는 수집이라고 할 수 있습니다. 전통적인 데이터베이스(DB) 환경에서는 외부에서 데이터를 가져오기보다는 DB의 프론트엔드인 애플리케이션에서 데이터가 생성되면서 처리가 시작되어지고, 반면 빅데이터는 내부에서 데이터가 생성되기보다는 외부의 데이터를 가져오면서 처리가 시작되어집니다. 빅데이터 환경에서 데이터 처리는 데이터 수집에서 시작한다고 할 수 있습니다.

소개

빅데이터수집 엔진(Tornado)은 능동적인 방식과 수동적인 방식 둘 다 고려한 빅데이터수집 엔진으로 방대한 딥웹(Deep Web)과 SNS, 쇼핑 사이트, IoT, 스트리밍 데이터 등의 다양한 산업군에서 생성되는 빅데이터에서 사용자가 원하는 빅데이터를 실시간 자동, 병렬 수집이 가능한 강력한 빅데이터수집 처리 엔진입니다. 실시간 소셜 빅데이터분석, 경쟁자 분석, 시장 및 제품 분석, 위험 관리 및 고객 목소리 분석을 위한 최적의 빅데이터수집 환경을 제공하고 있습니다.

데이터의 유실과 중복 방지, 데이터 압축, 데이터 정형화, 저장된 데이터의 암호화, 무결성 검증, 사용자 편리성 등을 고려하여 보다 강력한 웹 수집 기능뿐 아니라 가려져 있는 웹 페이지로부터 빅데이터를 자동 추출하고 변환 저장합니다. 웹 데이터뿐 아니라 뉴스, RSS, 트위터, 페이스북 등의 소셜 빅데이터수집이 가능한 수집엔진으로 현존하는 가장 강력한 대용량 빅데이터수집 엔진입니다.

< 빅데이터수집 엔진 개념도 >

주요 특징

다양한 빅데이터수집 기능 내장
사용자가 필요로 하는 여러 형태의 내외부 빅데이터수집을 위한 다양한 방식의 수집 기능(사용자 시나리오 기반 수집, RSS 수집 웹 수집, 심층웹 수집, 소셜미디어 수집, OpenAPI기반 수집)을 내장하고 있습니다.
데이터 추출 성능 보장을 위한 수집 규칙 편집 에디터(워크벤치) 내장
사용자 사용성을 고려한 웹 기반의 수집 규칙 에디터를 통해 JS, AJAX 등 다양한 형태의 동적 웹 사이트로부터 데이터 추출 및 수집을 쉽게 도와주는 수집 규칙 편집 에디터 내장하고 있습니다.
병렬 분산 수집 및 다양한 운영체계 지원
수집 설정되어진 다양한 규칙으로부터 동시에 방대한 양의 데이터를 분산 병렬 방식을 통해 보다 빠르고 안정적으로 수집이 가능하며 다양한 운영체계 (UNIX, Window 등)에서도 설치 및 운영이 가능합니다.
수집 시뮬레이터 및 사용자 수집 미리보기 기능
사용자 편의성을 고려하여 사용자 데이터를 수집하기 전 생성되어진 수집 규칙을 통하여 사전에 데이터 수집 시뮬레이션을 통해 수집되어진 데이터의 품질을 데이터 미리보기를 통하여 확인할 수 있는 기능을 제공합니다.
쉽고 편리하게 관리할 수 있는 관리도구
수집엔진의 상태를 전반적으로 상태 모니터링 할 수 있는 통합 대시보드 기능 제공을 통하여 운영자/관리자가 쉽고 빠르게 현황을 파악할 수 있는 기능 및 수집 소스별 수집 정책과 스케줄 설정 등 실시간으로 수집 결과를 상시 모니터링 할 수 있는 운영 관리도구를 제공합니다.

주요 기능 및 사양

정형 및 빅데이터의 지능형 융합 분석에 필요한 다양한 형태의 내•외부 데이터 수집 처리를 하기 위하여 Big Data Suite의 빅데이터수집 엔진(Tornado)은 사용자 시나리오 기반 수집, RSS 기반 수집, 심층 웹 수집, 메타 검색 수집, 소셜미디어 수집, OpenAPI 수집 기능을 제공합니다. 사용자가 정의한 수집 업무를 수집 엔진 내부 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 수행할 수 있으며, 실제 운영 시 수집이 실행되는 동안 실시간으로 수집 결과를 모니터링 할 수 있는 스케줄링 기능, 상태 모니터링 기능, 운영관리자 기능을 제공하고 있습니다.

< 수집 엔진 동작 절차 >

시나리오기반 수집 기능
뉴스, 블로그, 쇼핑몰, 일반 홈페이지 등 다양한 사이트에서 사용자가 작성한 시나리오 기반으로 수집 대상에 대한 데이터를 추출하여 수집하고 수집 주기를 설정할 수 있는 스케줄링 기능 및 워크벤치 내에서도 수집 상태를 확인할 수 있는 수집 상태 내역 보기 기능 등을 제공합니다.
RSS 수집 기능
RSS(Really Simple Syndication)의 피드를 읽어 들여 수집 대상 피드 내의 데이터뿐 아니라 링크 된 원본 데이터까지 추출하여 수집하고, 수집 주기를 설정할 수 있는 스케줄링 기능 및 워크벤치 내에서도 수집 상태를 확인할 수 있는 수집 상태 내역 보기 기능 등을 제공합니다.
심층 웹 수집 기능
URL 기반으로 사이트 전수 수집 또는 URL 패턴이나 키워드로 필터링 하여 사이트 내 정보를 손쉽게 수집하고 수집 대상에 대한 수집 주기를 설정할 수 있는 스케줄링 기능 및 수집 상태를 확인할 수 있는 수집 상태 내역 보기 기능 등을 제공합니다.
메타검색 수집 기능
구글, 빙, 다음, 네이버, 야후 등 다양한 검색 엔진에 사용자 키워드를 전송하여 검색 결과를 하나의 목록으로 통합하는 키워드 기반 수집 기능으로 사용자가 손쉽게 수집하고 수집 대상에 대한 수집 주기를 설정할 수 있는 스케줄링 기능 및 상태를 확인할 수 있는 수집 상태 내역 보기 기능을 제공합니다.
소셜미디어 수집 기능
트위터, 공개 페이스북 페이지, 웨이보 타임라인 등 다양한 형태의 소셜 데이터를 손쉽게 수집하고 수집 대상에 대한 수집 주기를 설정할 수 있는 스케줄링 기능 및 상태를 확인할 수 있는 수집 상태 내역 보기 기능을 제공합니다.
Open API 기반 수집 기능
국내외 공개데이터, 지자체 공공데이터 등 다양한 오픈데이터 문서 및 데이터를 손쉽게 수집하고 수집 대상에 대한 수집 주기를 설정할 수 있는 스케줄링 기능 및 상태를 확인할 수 있는 수집 상태 내역 보기 기능을 제공합니다.
수집 엔진 운영 관리 기능
① 운영 관리 기능 - 상태 모니터링 대시보드 기능
② 사용자(운영자) 관리 기능
③ 수집 대상(프로젝트)별 관리 기능

주요 엔진 화면

< 소셜미디어 수집 결과 >

< 소셜미디어 수집 생성 및 설정 >

< 수집처리엔진 상태 모니터링 대시보드 UI_UX >

< 시뮬레이터_데이터 미리보기 >