TORNADO는 방대한 딥웹(Deep Web)과 SNS, 쇼핑 사이트 등의 다양한 서비스들에서 사용자가 원하는 빅데이터를 실시간 자동, 병렬 수집이 가능한 강력한 빅데이터 수집 엔진입니다. TORNADO는 실시간 소셜 빅데이터 분석, 경쟁자 분석, 시장 및 제품 분석, 위험 관리 및 고객 목소리 분석을 위한 최적의 빅데이터 수집 환경을 제공하고 있습니다.
TORNADO는 보다 강력한 웹 크롤링 기능뿐 아니라 눈에 보이는 모든 웹 페이지로부터 빅데이터를 자동 추출하고 변환 저장합니다. 웹 데이터뿐 아니라 뉴스, RSS, 트위터, 페이스북, 웨이보 등의 소셜 빅데이터 수집이 가능한 TORNADO는 현존하는 가장 강력한 빅데이터 수집엔진 입니다.
규칙 기반수집, 메타/포커스드 크롤러, 페이스북/트위터 등 SNS 데이터/프로파일 수집, RSS 수집
GUI 형태의 규칙 편집기를 통해 JS, AJAX가 포함된 동적 웹 사이트로부터 데이터 추출, 수집 가능4>
수집 설정된 데이터 소스들로부터 동시에 방대한 양의 데이터를 병렬 자동 수집, 추출 가능
수집 소스별 수집 정책과 스케줄 설정, 관리 가능
데이터 수집의 사전 시뮬레이션과 데이터 미리보기
XML, 엑셀, DBMS, File System, FTP와 같이 다양한 형태로 수집된 데이터를 저장, 전송 가능
솔트룩스는 지난 20년간 자연언어처리에서 기계학습과 지식그래프 추론, 심층 질의응답 등의 기술을 개발했습니다. 인공지능 기술 기반 시맨틱 검색과 빅데이터 심층 분석 등의 사업을 수행합니다.
Scenario Based Crawler | RSS Crawler | Deep Web Crawler |
---|---|---|
웹페이지 수집 사용자 시나리오 정의 기능, 수집 시뮬레이션 기능 | RSS 피드 등록을 통한 기사 및 게시글 수집 | 로그인 사이트 수집, AJAX 기반 웹사이트 수집, JAVASCRIPT 링크 추적 기능 |
Metasearch Crawler | Social Media Crawler | OpenAPI Crawler |
네이버, 다음, 구글 등 주요 검색 서비스로부터 검색 문서 수집 | 트위터, 페이스북, 웨이보, 블로그, 커뮤니티, 뉴스 등 다양한 소셜미디어/문서수집, 이미지/PDF/바이너리 파일 수집 | 국내외 공개데이터, 지자체 공공데이터 등 다양한 오픈데이터 문서 및 데이터 수집, Open API 기반 데이터 수집 |
TORNADO는 사용자 시나리오 기반 수집기, 웹 수집기, RSS 기반 수집기, 소셜 수집기 등 다양한 형태의 데이터 수집을 위한 서버로 구성되어 있으며, 윈도우 및 리눅스 기반 서버를 모두 지원합니다. 또한 분산 시스템을 기반으로 설계되어 매우 유연하게 시스템을 구성할 수 있습니다.
사용자가 정의한 수집기의 업무는 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 볼 수 있으며, 수집 시스템에서 수집이 실행되는 동안 실시간으로 수집 결과를 모니터링 할 수 있습니다.
다양한 빅데이터 수집 엔진 내장 | 강력한 워크벤치와 데이터 추출 성능 | 병렬 분산 수집 및 다양한 운영체계 지원 |
---|---|---|
규칙 기반수집, 메타/포커스드 크롤러, 페이스북/트위터 등 SNS 데이터/프로파일 수집, RSS수집 | GUI 형태의 규칙 편집기를 통해 JS, AJAX가 포함된 동적 웹 사이트로부터 데이터 추출, 수집 가능 | 수집 설정된 데이터 소스들로부터 동시에 방대한 양의 데이터를 병렬 자동 수집, 추출 가능 |
수집 데이터의 저장과 관리 | 유연한 수집 정책 및 스케줄 관리 | 편리한 수집 시뮬레이션과 미리보기 |
XML, 엑셀, DBMS, File System, FTP와 같이 다양한 형태로 수집된 데이터를 저장, 전송 가능 | 수집 소스별 수집 정책과 스케줄 설정, 관리 가능 | 데이터 수집의 사전 시뮬레이션과 데이터 미리보기 |