음성인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자데이터로 전환하는 처리를 말하며 STT(Speech-to-Text)라고도 합니다. 음성인식 엔진은 음성 인터페이스를 기반으로 하는 다양한 서비스에 활용하기 위해 음성인식 서비스를 제공하는 시스템입니다. 특히 AI Suite의 음성인식 엔진은 방대한 데이터를 사전 학습하였으며, 특정 도메인에 빠르게 적용하기 위한 전이학습 방식을 활용하여 적은 양의 데이터 학습만으로도 양질의 음성인식 서비스 제공이 가능합니다.
< 음성 대화 인터페이스 기반 서비스 구성 >
< 심층신경망 기반 음성인식 학습 개요 >
음성인식 엔진은 RESTful 기반의 음성인식 서비스와 음향모델 및 언어모델의 학습 관리 기능으로 나눌 수 있습니다. 음성인식 서비스는 입력되는 음성데이터의 전처리, 특성 추출, 모델을 통한 텍스트 변환, 결과 보정 단계로 음성인식 결과를 제공합니다. 학습 관리는 음성-텍스트의 학습데이터로 음향모델과 언어모델에 대한 학습을 수행합니다.
< 음성 인식 엔진 구성도 >
아래 표는 적응학습 기반의 음성인식 품질 평가 결과입니다. Corr(Correct)는 음절단위맞춘 수, Acc(Accuracy)는 삽입, 삭제 오류를 고려한 정답률, H(hit)는 바르게 인식한 개수, D(deletion)은 묵음으로 인식한 수, S(substitution)는 다른 음절로 인식한 수, I(insertion)는 묵음이 다른 음절로 인식된 수를 의미합니다. 적응학습 이전의 베이스라인의 경우 음향 및 언어모델 모두 70% 이하의 정답률이었는데, 적응학습을 거친 후 두 모델 모두 97% 이상까지 향상되는 것을 확인할 수 있습니다. 개발된 음성인식 기술은 다양한 환경에서의 챗봇과 콜센터의 음성인식과 텍스트분석, 콜봇 시스템 구축 등에 활용되고 있습니다.
음향모델 | 베이스라인 | Bi-LSTM 적응학습(데이터1) |
Bi-LSTM 적응학습(데이터2) |
Ui-LSTM 적응학습(데이터1) |
|
---|---|---|---|---|---|
언어모델 | 베이스라인 | 적응학습(데이터1) | 적응학습(데이터2) | 적응학습(데이터1) | |
음향 모델 품질 | Corr | 69.15 | 98.32 | 98.07 | 96.75 |
Acc | 67.95 | 98.03 | 97.84 | 96.43 | |
H | 13,232 | 18,815 | 18,767 | 18,897 | |
S | 1,436 | 142 | 147 | 121 | |
D | 4,468 | 179 | 222 | 118 | |
I | 230 | 56 | 44 | 62 | |
N | 19,136 | 19,136 | 19,136 | 19,136 | |
언어 모델 품질 | Corr | 57.46 | 97.85 | 97.44 | 96.48 |
Acc | 54.46 | 97.48 | 97.06 | 96.07 | |
H | 7,044 | 11,995 | 11,945 | 12,073 | |
S | 1,566 | 110 | 120 | 94 | |
D | 3,649 | 154 | 194 | 92 | |
I | 368 | 45 | 47 | 51 | |
N | 12,256 | 12,256 | 12,259 | 12,259 |
< 적응학습 기반의 음성인식 기술 품질 평가 >
< 언어모델 학습 >
< 언어모델 학습데이터 관리 >
< 음성인식 API 테스트 >
< 음향 모델 학습 현황 관리 >