자연언어처리 엔진 LEA

LEA는 형태소, 개체명, 구문, 감성 분석기를 내장한 자연언어처리 엔진입니다. LEA의 모든 고정밀 언어분석 엔진은 기계학습과 인공신경망 기술이 적용되어 있으며, 사전과 규칙을 통해 각 도메인 별로 품질을 최적화 할 수 있습니다.


LEA의 형태소 분석기는 98% 이상의 분석 품질을 제공하고, 구문 분석과 개체명 인식 기술은 병렬/분산 처리를 통해 세계 최고 성능을 제공하고 있습니다. LEA 엔진은 한국어뿐 아니라 영어, 일어 등 다국어 대응이 가능하며, 온톨로지와 연계하여 의미해석, 질의응답, 대화 시스템 구현이 가능합니다.

형태소 분석기

LEA는 형태소, 개체명, 구문, 감성 분석기를 내장한 자연언어처리 엔진입니다. LEA의 모든 고정밀 언어분석 엔진은 기계학습과 인공신경망 기술이 적용되어 있으며, 사전과 규칙을 통해 각 도메인 별로 품질을 최적화 할 수 있습니다.


< 형태소 분석기 학습 및 분석 절차 >

  • 기계학습 기반 언어분석 (다국어 확장 용이)
  • 음절 기반 형태소 분석 및 품사 태깅 방법을 사용, 명사 분석 강화
  • Structural-SVM과 Pegasos 알고리즘을 적용, 빠르고 높은 품질
  • F1 기준 98% 이상의 높은 성능을 제공
  • 44개 형태소 지원, 형용사, 동사등의 용언에 대한 원형 복원 기능
  • 100% 자바로 OS 독립적, 멀티스레드 지원 (초당 400kbyte/스레드)

개체명 인식기

개체명이란 사람 이름, 회사 이름, 지명, 영화 제목, 날짜, 시간 등을 말하며, 텍스트에서 이런 개체명을 찾아서 해당하는 의미의 범주를 결정하는 것을 개체명 인식이라 합니다.

개체명의 예는 아래와 같습니다.
“독일에서 태어난 아인슈타인은 1916년에 일반상대성이론을 발표하였다.”


  • 독일: 지명
  • 아인슈타인: 사람 이름
  • 1916년: 년도
  • 일반상대성이론: 과학 관련 이론

개체명은 품사로는 고유명사 또는 미등록 언어인 경우가 많으며 향상 새롭게 만들어 지고, 때로는 같은 단어라도 사용되는 문장에 따라 상이한 의미를 나타냅니다. 또 개체명은 고유명사나 미등록 언어 하나가 하나의 개체명을 이룰 수도 있지만, 대부분의 개체명은 2개 이상의 고유명사나 일반명사와 결합하여, 복합 명사 혹은 명사구 형태를 보이기 때문에 그 경계를 인식하기는 쉽지 않습니다.

개체명 인식을 하기 위한 방법으로 전통적인 사전과 패턴 규칙을 분석한 방법은 다음과 같은 이유로 구축 비용이 높고 유지 관리가 어렵습니다. 분석 과정이 복잡하고 어휘 지식의 구축과 관리에 많은 비용이 듭니다. 구축된 이후에 신규 규칙 추가가 어려워서 유지 및 보수가 어렵습니다.

개체명 인식기 학습 및 분석 절차

주요특징

Namedentity recognition

기계학습 기반 개체명 인식 (다국어 확장 용이)

Latent Structural-SVM

Latent Structural-SVM과 알고리즘을 적용, 품질 향상

High performance

F1 기준 85% 이상의 높은 성능을 제공

Java & Multi-thread

100% 자바, 멀티스레드 지원 (초당 200kbyte/스레드)

구문 분석기

언어학에서 구문 분석(구문 해석, 문장 해석)은 문장을 그것을 이루고 있는 구성 성분으로 분해하고 그들 사이의 위계 관계를 분석하여 문장의 구조를 결정하는 것을 뜻합니다. 컴퓨터 과학에서 파싱((syntactic) parsing)은 일련의 문자열을 의미 있는 토큰(token)으로 분해하고 이루어진 파스 트리(parse tree)를 만드는 과정을 말합니다.

주요 특징

LEA의 형태소 분석기는 98% 이상의 분석 품질을 제공하고, 구문 분석과 개체명 인식 기술은 병렬/분산 처리를 통해 세계 최고 성능을 제공하고 있습니다. LEA 엔진은 한국어뿐 아니라 영어, 일어 등 다국어 대응이 가능하며, 온톨로지와 연계하여 의미해석, 질의응답, 대화 시스템 구현이 가능합니다.

  • 기계학습(Transition-based Dependency Parsing) 기반 의존 구문분석 (다국어 확장 용이)
  • Beam Search 최적화와 feature로 Word Embedding 활용을 통한 품질 향상
  • UAS 기준 88% 이상의 높은 품질 제공, 초당 100kbyte/스레드 분석 성능

감정 분석기

어떤 주제에 대한 긍정적이거나 부정적인 의견 표출에 대한 요약된 정보를 제시해 주거나 어떤 주제에 대한 보다 상세한 항목에 대한 평가를 요약해서 제시해 주는 것으로, 이러한 분석의 응용은 '감성 분석(sentiment analysis)', '의견 분석(opinion mining)', '감성 분석(emotion analysis)' 등으로 불린다. 감성 분석은 통산 3단계로 이뤄 진다. 첫 번째는 각종 소셜 미디어 매체에서 정보를 수집하는 '데이터 수집'단계다. 두 번째는 이렇게 총체적으로 수집된 정보에서 사용자의 주관이 드러난 부분1만을 걸러 내는 '주관성 탐지'과정이다. 마지막 세 번째 단계에서는 '극성 탐지' 작업이 이뤄 지는데 이는 추출된 감성 데이터를 '좋음'과 '싫음'의 양 극단으로 분류하는 과정이다.


감성 분석기 학습 및 분석 절차

주요특징