지식 수집 엔진 TORNADO

TORNADO는 방대한 딥웹(Deep Web)과 SNS, 쇼핑 사이트 등의 다양한 서비스들에서 사용자가 원하는 빅데이터를 실시간 자동, 병렬 수집이 가능한 강력한 빅데이터 수집 엔진입니다. TORNADO는 실시간 소셜 빅데이터 분석, 경쟁자 분석, 시장 및 제품 분석, 위험 관리 및 고객 목소리 분석을 위한 최적의 빅데이터 수집 환경을 제공하고 있습니다.


TORNADO는 보다 강력한 웹 크롤링 기능뿐 아니라 눈에 보이는 모든 웹 페이지로부터 빅데이터를 자동 추출하고 변환 저장합니다. 웹 데이터뿐 아니라 뉴스, RSS, 트위터, 페이스북, 웨이보 등의 소셜 빅데이터 수집이 가능한 TORNADO는 현존하는 가장 강력한 빅데이터 수집엔진 입니다.

다양한 빅데이터 수집 엔진 내장

규칙 기반수집, 메타/포커스드 크롤러, 페이스북/트위터 등 SNS 데이터/프로파일 수집, RSS 수집

강력한 워크벤치와 데이터 추출 성능

GUI 형태의 규칙 편집기를 통해 JS, AJAX가 포함된 동적 웹 사이트로부터 데이터 추출, 수집 가능

병렬 분산 수집 및 다양한 운영체계 지원

수집 설정된 데이터 소스들로부터 동시에 방대한 양의 데이터를 병렬 자동 수집, 추출 가능

유연한 수집 정책 및 스케줄 관리

수집 소스별 수집 정책과 스케줄 설정, 관리 가능

편리한 수집 시뮬레이션과 미리보기

데이터 수집의 사전 시뮬레이션과 데이터 미리보기

수집 데이터의 저장과 관리

XML, 엑셀, DBMS, File System, FTP와 같이 다양한 형태로 수집된 데이터를 저장, 전송 가능

TORNADO 주요 기능

솔트룩스는 지난 20년간 자연언어처리에서 기계학습과 온톨로지 추론, 심층 질의응답 등의 기술을 개발했습니다. 인공지능 기술 기반 시맨틱 검색과 빅데이터 심층 분석 등의 사업을 수행합니다.

Scenario Based Crawler RSS Crawler Deep Web Crawler
웹페이지 수집 사용자 시나리오 정의 기능, 수집 시뮬레이션 기능 RSS 피드 등록을 통한 기사 및 게시글 수집 로그인 사이트 수집, AJAX 기반 웹사이트 수집, JAVASCRIPT 링크 추적 기능
Metasearch Crawler Social Media Crawler OpenAPI Crawler
네이버, 다음, 구글 등 주요 검색 서비스로부터 검색 문서 수집 트위터, 페이스북, 웨이보, 블로그, 커뮤니티, 뉴스 등 다양한 소셜미디어/문서수집, 이미지/PDF/바이너리 파일 수집 국내외 공개데이터, 지자체 공공데이터 등 다양한 오픈데이터 문서 및 데이터 수집, Open API 기반 데이터 수집

TORNADO 아키텍처 구성

TORNADO는 사용자 시나리오 기반 수집기, 웹 수집기, RSS 기반 수집기, 소셜 수집기 등 다양한 형태의 데이터 수집을 위한 서버로 구성되어 있으며, 윈도우 및 리눅스 기반 서버를 모두 지원합니다. 또한 분산 시스템을 기반으로 설계되어 매우 유연하게 시스템을 구성할 수 있습니다.


TORNADO 수집 프로세스

사용자가 정의한 수집기의 업무는 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 볼 수 있으며, 수집 시스템에서 수집이 실행되는 동안 실시간으로 수집 결과를 모니터링 할 수 있습니다.


TORNADO 특징


다양한 빅데이터 수집 엔진 내장 강력한 워크벤치와 데이터 추출 성능 병렬 분산 수집 및 다양한 운영체계 지원
규칙 기반수집, 메타/포커스드 크롤러, 페이스북/트위터 등 SNS 데이터/프로파일 수집, RSS수집 GUI 형태의 규칙 편집기를 통해 JS, AJAX가 포함된 동적 웹 사이트로부터 데이터 추출, 수집 가능 수집 설정된 데이터 소스들로부터 동시에 방대한 양의 데이터를 병렬 자동 수집, 추출 가능
수집 데이터의 저장과 관리 유연한 수집 정책 및 스케줄 관리 편리한 수집 시뮬레이션과 미리보기
XML, 엑셀, DBMS, File System, FTP와 같이 다양한 형태로 수집된 데이터를 저장, 전송 가능 수집 소스별 수집 정책과 스케줄 설정, 관리 가능 데이터 수집의 사전 시뮬레이션과 데이터 미리보기

TORNADO 도입 효과


수집영역 확장을 통한 지식데이터 증대
토네이도의 수집 기술을 통해 일반적 수집 로봇이 확보할 수 없는 콘텐츠와 확보하고 대용량의 데이터를 쉽게 수집할 수 있습니다.
전략적 데이터 수집/추출을 통한 인사이트 제공
수집된 다양한 문서로부터 고객이 필요로 하는 데이터를 추출하여 구조화할 수 있습니다.
빅데이터 수집 효율성 제고
고객 목소리(VOC), 트렌드, 연관 문서 등 다양한 니즈에 대응 가능한 특성화된 기능을 제공함으로써 빅데이터를 효과적으로 수집하고 비용을 절감할 수 있습니다.

TORNADO 활용 사례 및 분야


지식 베이스 구축
비정형 데이터를 반정형 데이터(HTML/XML)에서 표 형식으로 변환하여 지식 베이스로 쉽게 변환할 수 있습니다.
가격 비교
경쟁사들이 판매하는 유사제품의 제품과 가격 정보를 수집하고, 유통 경로 내에서 가격 책정과 제품 정보에 대해 모니터링 합니다.
소셜 미디어 분석
다양한 소셜 미디어 소스(트위터, 페이스북, 블로그, 뉴스 등)에서 특정 주제, 사람, 국가에 대한 데이터를 수집합니다. 이 데이터는 소셜 미디어 분석에 있어 매우 유용한 소스입니다.
비즈니스 인텔리전스
토네이도는 비즈니스 인텔리전스를 위해 데이터를 수집할 수 있습니다. 예를 들어, 취업 웹사이트에 대한 데이터 수집을 통해 경쟁 기업들이 어떤 능력을 가진 인재를 어느 곳에서 채용하는지 알 수 있습니다. 토네이도는 또한 전자 게시판과 포럼에서 제품 리뷰를 추출하여 새로 출시한 제품의 결함을 발견할 수 있습니다.