전통적인 음성인식

전통적 전처리 - 특징추출 - 특징 to 음소 - 음소 to 단어(발음사전) - 단어 to 문장(문법모델)

현재 음성전처리 - 특징추출 - 특징 to 문장 (사운드 모델)\

사운드모델 입력 : 푸리에 (20ms인데 10ms씩 겹치게) 출력 : character mel 필터 (사람이 잘 들리는 부분에 대해 적용하는 필터) 입출력 길이가 불일치

DNN : 매 프레임마다 정답을 설정

CTC( Connectionist Temporal Classification) :

아무것도 안나오는 _ black를 추가
블랭크 매우 반복시 띄어쓰기 사용
블랭크없이 반복된문자 합침
미분이 가능하다
경계가 애매할때 사용
계산법
- 가능한 패스를전부 계산 (동적프로그래밍)
- 조건부 독립의 문제(Conditional Independent Problem) : 덕분에 spelling이 엄청나게 틀림

Gram-CTC

이 CTC가 생기면서 End-To-End 가 가능해졌음

Seq to Seq With Attention

Attention의 문제점

LAS (listen, attend and spell, 2015)

Monotonic Attention (2017)

CNN의 침범

DeepSpeech 2

Convolutional CTC (텐센트, 2017)

고려할점

전처리 내역

후처리 (경험적 보정?)

다본느낌

End-to-End 이 현재 트렌드

Sound Model