1.前天的讨论内容

  • 统计空点(无声点)的m值
  • 对m画直方图,尽量使其接近纺锤形
  • remove后的语音,正向得到其准确率(已有)并和original声音的准确率做比较
  • remove后的声音,正向得到output f,和original的output f* 相差,算模
  • 训练时对m加阈值,超过某值后锁死
  • abs(m)也是一层,也要求导

2.原始语音和再生成语音的output差距较大

这是原始的训练语音:

这是由fft矩阵ifft算回的声音:

没有置零,直接ifft。但由于采样率、连续音频被分立等因素,这两者听起来是有微小差距的。

但是对这两个正向,其output差别还较大:

训练原始声音:
|T|: that|had|its|source|away|back|in|the|woods|of|the|old|cuthbert|place|it|was|reputed|to|be|an|intricate|headlong|brook|in|its|earlier|course|through|those|woods|with|dark|secrets|of|pool|and|cascade|but|by|the|time|it|reached|lynde's|hollow|it|was|a|quiet|well|conducted|little|stream
|P|: that|had|it|sorce|away|back|in|the|woods|of|the|old|hathbrtk|aae|it|was|ereputed|to|be|and|nriicket|head|rorung|rok|nin|his|arlet|course|through|those|woods|with|dark|secrets|of|pool|aesgade|but|by|the|timet|reach|lids's|hollow|it|was|a|cuiet|well|conducted|little|street
[sample: 1, WER: 37.7358%, LER: 15.9011%, total WER: 37.7358%, total LER: 15.9011%, progress: 100%]
ifft再生成声音:
|T|: that|had|its|source|away|back|in|the|woods|of|the|old|cuthbert|place|it|was|reputed|to|be|an|intricate|headlong|brook|in|its|earlier|course|through|those|woods|with|dark|secrets|of|pool|and|cascade|but|by|the|time|it|reached|lynde's|hollow|it|was|a|quiet|well|conducted|little|stream
|P|: atd|hatit|source|o|way|back|of|the|woods|if|the|old|cuthertkables|it|was|erecut|d|to|be|n|intuuk|t|hedrlrop|wel|n|his|eareheye|coursed|hror|thot|wis|oods|with|t|dark|secretcs|of|puol|and|cast|gate|tbat|by|the|time|t|reach|linds|hollow|u|it|was|a|quiet|will|c|nductid|at|hith|at|streate
[sample: 1, WER: 66.0377%, LER: 30.0353%, total WER: 66.0377%, total LER: 30.0353%, progress: 100%]

两个output矩阵:原始语音, 再生成语音

两个矩阵相差结果:


两个output,平均每点之差

这是之前没有发现的一点,也是系统本身的一组对抗样本。

2.其他各组样本的output与原始音频比较

原始音频的结果:WER: 37.7358%, LER: 15.9011%

以下是各组结果:


output矩阵之差比较

对照看各组正确率:


正向WER LER比较

具体的各组结果可以点进去看:

1 2 3 4 5 6

序号 lr lambda 是否归一化 m_mean m_var 效果
0 1e4 1e-10 是(但求导直接乘系数) 4e2 1e6 loss上升,m过大,反
1 5e4 1e-10 是(但求导直接乘系数) 1e3 7e6 loss上升了/m过大/反
2 1e4 1e-10 否(回加) 50 3e5 loss下降且收敛/反
3 1e4 1e-10 是(求导用全1) 4e2 8e5 loss上升/m过大/反
4 1e4 1e-11 否(回加) 50 1e4 loss下降且收敛/反
5 1e4 1e-11 是(求导用全K) 8e2 6e6 loss在高处/m过大/反
6 1e4 1e-11 是(求导用全1) 4e2 8e5 loss上升/m过大/反