<
ASR(Automatic Speech Recognition) 정리
>
上一篇

OpenCV 시작 겸 기본 클래스 정리
下一篇

Adversarial Feature Learning

전통적인 음성인식

전통적 전처리 - 특징추출 - 특징 to 음소 - 음소 to 단어(발음사전) - 단어 to 문장(문법모델)

현재 음성전처리 - 특징추출 - 특징 to 문장 (사운드 모델)\

사운드모델 입력 : 푸리에 (20ms인데 10ms씩 겹치게) 출력 : character mel 필터 (사람이 잘 들리는 부분에 대해 적용하는 필터) 입출력 길이가 불일치

DNN : 매 프레임마다 정답을 설정

CTC( Connectionist Temporal Classification) :

Gram-CTC

이 CTC가 생기면서 End-To-End 가 가능해졌음

Seq to Seq With Attention

Attention의 문제점

LAS (listen, attend and spell, 2015)

Monotonic Attention (2017)

CNN의 침범

DeepSpeech 2

Convolutional CTC (텐센트, 2017)

고려할점

전처리 내역

후처리 (경험적 보정?)

다본느낌

End-to-End 이 현재 트렌드

Sound Model

Top
Foot