하이브리드 자동분류 엔진, DISCOVERY HBC

비정형 빅데이터 고정밀 자동분류

DISCOVERY HBC(Hybrid Classifier)는 방대한 양의 다양한 비정형 문서들을 사전 정의한 분류체계로 실시간 자동 분류하는 대용량 고정밀 자동 분류 시스템입니다. 다중 SVM 기반의 기계학습 기술과 논리 규칙 기반의 휴리스틱 분류 기술을 상호 융합, 하이브리드 알고리즘으로 구현함으로써 분류 자동화 효율을 높이고 동시에 그 정확도를 세계 최고 수준으로 높였습니다.

DISCOVERY HBC 개념도

DISCOVERY HBC의 강력한 워크벤치는 복잡한 분류 체계 학습을 위한 다중 사용자 접근 관리와 이클립스 기반의 편리한 관리자 환경을 동시에 제공합니다. 워크벤치에 내장된 분류 학습 도구는 분류 품질의 지속적인 개선과 실시간 적용이 가능합니다. 또한 뉴스/블로그/트위터 등의 소셜 미디어 자동 분류, 기업의 문서/콘텐츠 자동 분류,고객 목소리(VOC) 자동 분류, CRM/게시판 자동 분류, 특허/학술 자료 자동 분류 등 매우 다양한 분야에 응용되고 있습니다.

DISCOVERY HBC 아키텍쳐

DISCOVERY CORE는 비정형 콘텐츠의 의미기반 검색, 트랜드 및 이슈 분석, 연관정보 분석과 시각화 등의 매우 강력한 시맨틱 통합 검색과 분석이 가능합니다. 또한 심층 분석 솔루션으로도 확장됩니다. 숨은 지식의 발견과 통합적 이해를 통한 전략적 의사결정 및 위험 관리와 사업 최적화, 내∙외부 지식의 연계와 지식 활동 강화, 유∙무형 지식의 자산화를 통해 기업 내 지식자산의 재활용 비용 절감에 큰 장점이 있습니다.

DISCOVERY HBC 특징

최고의 하이브리드 자동 문서 분류 엔진
학습 기반(SVM)과 규칙 기반(RULE)의 하이브리드 분류를 통해 좀 더 정확한 비정형콘텐트 문서의 분류가 가능하며, 단순 분류 엔진 대비 분류 속도도 뛰어납니다.
초대용량 문서 분류 처리 가능
매일 끊임없이 증가하는 대용량의 문서 분류 처리가 엔진 성능과 안정성으로 가능하며, 이는 LG전자와 KOTRA에서 도입하여 입증 되었습니다.
다양한 비정형콘텐트 처리 가능
doc, ppt, xls, pdf, txt, xml, hwp, html 등의 모든 다양한 비정형 콘텐트의 분류가 가능합니다.
안정적인 시스템/솔루션 연동성
기업 내에서 사용 중인 기존 시스템/솔루션과의 안정적인 연동성을 보장합니다.
편리한 텍사노미(분류체계) 관리
텍사노미(분류체계) 관리자가 관리자 기능을 통해 손쉽게 텍사노미의 수정, 추가, 삭제 등을 할 수 있으며, 변경 시 바로 시스템에 적용되어 관리됩니다.
지속적인 개선/보완이 가능한 구조
분류 품질을 높이기 위해 사용자가 품질 평가를 통해 나온 개선 사항을 손쉽게 개선하여 적용이 가능합니다.
다중 관리 사용자 지원
텍사노미 관리 시에 다중 사용자 접속을 지원하여 동시에 여러 사용자의 카테고리 접근 관리가 가능합니다.
편리한 워크벤치
고객 중심의 UX/UI 구현과 문서 및 분류체계 관리의 사용자 편의성을 제공합니다.

DISCOVERY HBC 주요기능

규칙 기반 분산, 병렬 자동 분류
DISCOVERY HBC의 규칙 기반 자동 분류 엔진은 DOR의 고성능 검색 기술에 기반하며 복잡한 논리적 분류 규칙을 기계 학습 분류에 결합함으로, 최고의 분류 품질을 확보할 수 있도록 합니다. 다수의 서버에서 다수의 쓰레드를 통해 병렬 분산처리 함으로, 실시간 자동 분류 성능 확보가 가능합니다.
다국어 정보 분류
한국어, 영어, 일본어뿐 아니라 다양한 언어 처리모듈을 플러그인 형태로 결합, 다국어 정보에 대한 자동 분류 구현이 용이하도록 설계되었습니다.
기계 학습과 분류 최적화
최고 성능의 SVM 기반 다중, 병렬 기계 학습 엔진을 내장하고 있습니다. 긍정 및 부정 예제 학습 기능을 포함하며, 검색을 통해 학습 문서를 쉽게 발견, 적용할 수 있습니다. 재학습 기능을 통해 SVM 분류기의 성능을 최적화 할 수 있습니다.
다중 사용자 접근 관리
분류 체계가 복잡해지고, 실시간 관리가 필요한 경우 다수의 분류 체계 설계자 및 관리자가 협업해야 할 필요가 증가합니다. DISCOVERY HBC는 분류 체계 생성 및 분류 학습을 위한 협업 체계와 다중 사용자 접근 관리 기능을 포함하고 있습니다.

DISCOVERY HBC 활용 분야

웹의 뉴스/블로그 등의 자동 분류
매일 지속적으로 생성되는 뉴스/블로그의 문서를 정확하게 카테고리 별로 분류를 나눌 수 있습니다. 뉴스/블로그의 콘텐트 내용을 분석하여 자동 분류되기 때문에 다량의 콘텐트를 적절하게 관리할 수 있습니다.
기업의 문서/콘텐트 자동 분류
문서/콘텐트 분류체계를 구성하고, 자동으로 적절한 분류 카테고리로 자동 분류 함으로써 문서로의 접근 속도와 활용성을 높일 수 있습니다. 자동 분류를 통해 급격하게 증가하여 누적되기만 하던 문서를 지식자산으로 활용할 수 있습니다.
특허/학술 자료 자동 분류
수많은 기업/단체에서 출원 또는 발표하는 특허/학술 자료의 내용을 분석하여 정의된 분류체계로 자동 분류하고 관리할 수 있어 사용자의 접근성을 높일 수가 있습니다.
VOC 자동 분류
제품/정치/회사/경쟁사/시장 등에 대해 발생하는 네티즌의 목소리를 신속하게 자동 분류하여 VOC를 분석할 수 있습니다. 시기 적절하게 온라인 상의 다양한 이슈, 의견, 루머, 불만사항, 트렌드 등에 효과적으로 대응할 수 있습니다.
CRM/게시판 자동 분류
기업 및 공공기관의 CRM 및 게시판에 접수/등록된 의견을 자동 분류 및 관리하여 고객들의 주 문의 분야를 파악할 수 있습니다. 자동 분류를 통해 적절한 부서 및 담당자에게 해당 내역을 즉시 공지할 수 있어 빠른 대응이 가능합니다.