训练结果 on facebook:wav2letter

1.首先放几组结果

以下学习率均设成1.0

m初值0.1，λ=0.1，5000epoch

m初值1.0，λ=0.01，10000epoch

m初值0.1，λ=0.000001，10000epoch

m初值1.0，λ=10.0，10000epoch

m初值5.0，λ=1.0，10000epoch

m初值1.0，λ=0.001，10000epoch

m初值5.0，λ=1.0，10000epoch，保持fft总值不变

m初值5.0，λ乘在前一项=10e5，10000epoch，保持fft总值不变

m初值5.0，λ乘在前一项=10e4，10000epoch，保持fft总值不变，m加relu抑制负值

2.按最初方法训练的结果

m初值0.1，λ=0.1，5000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

过程中经过模糊后的声音，eg. 第4000次：

最后输出在各个维度的分布：

m初值1.0，λ=0.01，10000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

最后输出在各个维度的分布：

m初值0.1，λ=0.000001，10000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

m初值1.0，λ=10.0，10000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

最后输出在各个维度的分布：

m初值5.0，λ=1.0，10000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

最后输出在各个维度的分布：

m初值1.0，λ=0.001，10000epoch

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

最后输出在各个维度的分布：

3.一些思考

1.几乎是λ越大，最终m就越大。这是符合loss公式的，因为前一项MSEloss是想让m减小，而第二项 -H(m)，则是想让m变大。
2.看训练过程中被模糊后的音频，的确是在频率维度上做了模糊。听声音时老师指出可以听声母和韵母的保留度有所不同，可以在后续对原语音点进行标记并比较。
3.最终m的值都差不多，这是我们不希望看到的结果。但是通过看置零m后的图，置零的部分在频率维度上往往是连着的，这个地方值得研究。而关于如何让m的区分度更大，我目前想到了两个方向：
4.第一，之前对于边界点的考虑是直接将外面舍弃，比如有一个在最边上m=3, fft=9的点，就直接保留内部的1 2 3而舍弃外部的2 1，这样每次fft矩阵的总值会减少一点；但是显然，m越大，这样丢弃的值就越多，比如看这一组fft矩阵的均值变化：

λ=10, 最终m均值为400

可以看到，每次丢一点，fft的值被丢了很多。因此选择先求周边影响点的变化，然后本身值的变化就是减去其他的加值，这样可以确保fft矩阵的值总不变。如下：

af::array f1_1 = absTiled*(MTiled-af::abs(iloop-ploop))/sum_m_p_j; //i!=p, add
af::array f1_2 = absTiled*(sum_m_p_j - sum_mpj_partial_to_mpj*(MTiled-abs(iloop-ploop)))/(sum_m_p_j*sum_m_p_j); //i!=p, grad

Z_add = cond * ((1 - i_e_p) * f1_1);
Z_grad = cond * ((1 - i_e_p) * f1_2);

af::array f2_1 = (-1.0)*af::tile(af::sum(Z_add, 2), af::dim4(1, 1, K)); //i==p, add
af::array f2_2 = (-1.0)*af::tile(af::sum(Z_grad, 2), af::dim4(1, 1, K)); //i==p, grad

Z_add += cond * i_e_p * f2_1;
Z_grad += cond * i_e_p * f2_2;