[論文筆記] Conformer Layer介紹

Arthur
Aug 7, 2021

--

Conformer: Convolution-augmented Transformer for Speech Recognition

簡介

近年Transformer架構與CNN架構在音訊AI架構上都有不少貢獻,這篇論文將Transformer架構與CNN結合產生新的Conformer,在ASR使用LibriSpeech資料集測試WER有達到2.1%/4.3%,套上language model更可以達到1.9%/4.3%。

Transformer與CNN的優缺

  • Transformer因為基於Self-attention layer設計,在針對大範圍前後有相關的特徵互動的資訊,有較好的效果,但缺乏提取局部細微的特徵
  • CNN的Convolution layer提取局部細微特徵非常好,像是影像的一些邊緣特徵與形狀上,但會需要大量參數與深度來理解整張圖片的全域特徵關係。
  • Conformer架構的出發先,將Self-attention layer與Convolution layer做結合,希望能擷取各自的優點。

網路架構

圖源:論文

Convolution Module

圖源:論文

Layernorm:針對layer做normaliztion

Pointwise Conv :一般的常聽到Convolution是Depthwise Conv,簡單來說假設Conv輸入為64x64x32,輸出為64x64x32,Kernal Size為3的話。

  • Depthwise Conv kernal 為3x3x32x32,它最後會對input channels與kernal產生的值有一個Sum的動作。
  • Pointwise Conv kernal 則為3x3x32

Glu Activation:近年發現能收斂比Relu快的Activation

Feed Forward Module

圖源:論文

Multi-Head Self Attention Module

圖源:論文

Decoder

一層的LTSM,language model 3層的LTSM。

結果

Conformer提供三種架構

圖源:論文

數據比較

圖源:論文

參考資料:

--

--

Arthur
Arthur

Written by Arthur

Cooking, Coding and Reading

No responses yet