문의하기

음성인식 엔진 STT

음성인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자데이터로 전환하는 처리를 말하며 STT(Speech-to-Text)라고도 합니다. 음성인식 엔진은 음성 인터페이스를 기반으로 하는 다양한 서비스에 활용하기 위해 음성인식 서비스를 제공하는 시스템입니다. 특히 AI Suite의 음성인식 엔진은 방대한 데이터를 사전 학습하였으며, 특정 도메인에 빠르게 적용하기 위한 전이학습 방식을 활용하여 적은 양의 데이터 학습만으로도 양질의 음성인식 서비스 제공이 가능합니다.

< 음성 대화 인터페이스 기반 서비스 구성 >

주요 특징

심층신경망 기반의 음성인식 학습
AI Suite의 음성인식 엔진은 딥러닝(Deep Learning)에 의해 고도화된 음향모델 적응 학습을 기반으로 합니다. 일반적으로 사용되는 음성인식 알고리즘인 HMM(Hidden Markov Model) 또는, 기존 Fully connected DNN(Deep Neural Network) 기반 음향모델보다 개선된 음성인식 성능을 보이는 LSTM(Long Short-Term Memory)기술을 적용한 baseline 음향모델을 기반으로 적응 학습 환경을 제공합니다.

< 심층신경망 기반 음성인식 학습 개요 >

대용량 다국어 음성 DB 학습
솔트룩스는 언어별 다양한 상황에 대한 다중 화자 음성데이터를 자체 보유하고 있습니다. AI Suite의 음성인식 엔진에는 이러한 다국어 음성데이터를 기반으로 학습된 다국어 음성인식 및 고품질의 베이스 음성인식 모델을 생성하여 탑재되어 있습니다. 이를 통해, 고품질의 음성인식 서비스가 가능합니다.

주요 기능 및 사양

음성인식 엔진은 RESTful 기반의 음성인식 서비스와 음향모델 및 언어모델의 학습 관리 기능으로 나눌 수 있습니다. 음성인식 서비스는 입력되는 음성데이터의 전처리, 특성 추출, 모델을 통한 텍스트 변환, 결과 보정 단계로 음성인식 결과를 제공합니다. 학습 관리는 음성-텍스트의 학습데이터로 음향모델과 언어모델에 대한 학습을 수행합니다.

< 음성 인식 엔진 구성도 >

음성인식 서비스
음성인식은 일반적으로 음성인식 기능이 필요한 다른 서비스 어플리케이션에서 음성인식 엔진이 제공하는 API를 호출하는 방식으로 사용됩니다. 음성인식 엔진은 RESTful 형식의 API End-Point 서비스를 통해 음성인식 기능을 제공합니다. 이를 활용하는 서비스 어플리케이션에서는 시스템 환경에 관계없이 접근하며, 제공되는 기능을 활용하여 다양한 음성인식 기반 인공지능 서비스 구현이 가능합니다.
음향모델 적응 학습
음성인식은 사전에 학습된 모델을 통해 음성데이터를 텍스트 정보로 변환합니다. 이 과정에서 사용되는 학습 모델은 크게 음향모델(Acoustic Model, AM)과 언어모델(Language Model, LM)로 구분할 수 있습니다. 음향모델은 음성데이터에서의 음향적 특성을 통계적으로 모델링하여 학습하게 되는데, 음성인식 엔진에서 제공하는 기본 모델(baseline model)을 기반으로 실제 적용하고자 하는 음성의 특성을 추가하는 적응 학습이 가능합니다. 특정 분야(콜센터 등)에서 수집된 녹취 음성데이터와 전사 데이터를 학습 데이터로 입력하여 기존 baseline model에 적응 학습을 수행할 수 있습니다. LSTM(Long Short-Term Memory) 기반으로 학습된 음향모델은 HMM, DNN 방식에 비해 높은 음성인식 성능을 제공하고, 해당 분야에 특화된 음성인식 기능을 제공할 수 있습니다.
언어모델 학습
특정 분야(금융, 콜센터 등)에서 사용되는 언어 표현의 특성을 반영하여 해당 서비스에 특화된 음성인식 기능을 제공하고, 보다 개선된 품질을 제공하기 위해 언어모델을 학습할 수 있습니다. 언어모델은 텍스트로 변환되는 문장의 어휘 선택이나 문장 구조 등 문법적 특성을 학습하는 것으로, 대량의 말뭉치를 수집하여 통계적으로 학습하거나, 형식 언어를 통해 임의의 규칙을 정의할 수 있습니다.
고성능 음성인식 모델 제공
음성인식 엔진에서 제공하는 음향모델과 언어모델은 한국어 1,200시간 정도의 데이터 학습을 통해 높은 성능을 보장하는 기본 모델(baseline model)을 포함하고 있습니다.

주요 성능

아래 표는 적응학습 기반의 음성인식 품질 평가 결과입니다. Corr(Correct)는 음절단위맞춘 수, Acc(Accuracy)는 삽입, 삭제 오류를 고려한 정답률, H(hit)는 바르게 인식한 개수, D(deletion)은 묵음으로 인식한 수, S(substitution)는 다른 음절로 인식한 수, I(insertion)는 묵음이 다른 음절로 인식된 수를 의미합니다. 적응학습 이전의 베이스라인의 경우 음향 및 언어모델 모두 70% 이하의 정답률이었는데, 적응학습을 거친 후 두 모델 모두 97% 이상까지 향상되는 것을 확인할 수 있습니다. 개발된 음성인식 기술은 다양한 환경에서의 챗봇과 콜센터의 음성인식과 텍스트분석, 콜봇 시스템 구축 등에 활용되고 있습니다.

음향모델 베이스라인 Bi-LSTM
적응학습(데이터1)
Bi-LSTM
적응학습(데이터2)
Ui-LSTM
적응학습(데이터1)
언어모델 베이스라인 적응학습(데이터1) 적응학습(데이터2) 적응학습(데이터1)
음향 모델 품질 Corr 69.15 98.32 98.07 96.75
Acc 67.95 98.03 97.84 96.43
H 13,232 18,815 18,767 18,897
S 1,436 142 147 121
D 4,468 179 222 118
I 230 56 44 62
N 19,136 19,136 19,136 19,136
언어 모델 품질 Corr 57.46 97.85 97.44 96.48
Acc 54.46 97.48 97.06 96.07
H 7,044 11,995 11,945 12,073
S 1,566 110 120 94
D 3,649 154 194 92
I 368 45 47 51
N 12,256 12,256 12,259 12,259

< 적응학습 기반의 음성인식 기술 품질 평가 >

주요 엔진 화면

< 언어모델 학습 >

< 언어모델 학습데이터 관리 >

< 음성인식 API 테스트 >

< 음향 모델 학습 현황 관리 >