深度学习中的注意力机制 原理 及 代码

seq2seq缺陷:无论之前的context有多长,包含多少信息量,最终都要被压缩成一个几百维的vector。这意味着context越大,最终的state vector会丢失越多的信息。

Attention based model的核心思想: 一个模型完全可以在decode的过程中利用context的全部信息,而不仅仅是最后一个state。

  1. ss
    • global attention
    • local attention
  2. ewrw
    • soft
    • hard

各种各样的attention

self attention

sparse attention

hierarchical attentioin

Hierarchical Attention Networks for Document Classification

Hierarchical Attention Network

采用了word-level和sentent-level的attention。

  1. a word sequence encoder
  2. a word-level attention layer
  3. a sentence encoder
  4. a sentence-level attention layer

可视化分析

Hierarchical Attention Network

参考