增大学习率至收敛

Jul 17, 2019

1.m初值1.0，λ=0.0001，50000epoch，lr变动5000/1000/500/100

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m，详细

最后一层的梯度和m分布直方图

最后输出在各个维度的分布：

2.m初值1.0，λ=0.0001，200000epoch，lr固定5000

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

MSE的梯度 H(m)的梯度

m的变化和最终m，详细

20000次epoch 40000次epoch 60000次epoch 80000次epoch 100000次epoch 120000次epoch 140000次epoch 160000次epoch 180000次epoch 200000次epoch

最后一层的梯度和m分布直方图

最后输出在各个维度的分布：

3.m初值1.0，λ=0.0001，10000epoch，lr固定50000

loss分为两部分，蓝-λ橙

对m梯度分为两部分，蓝-λ橙。这里分别看梯度的平均值和方差

MSE的梯度 H(m)的梯度

m的变化和最终m，详细

1000次epoch 2000次epoch 3000次epoch 4000次epoch 5000次epoch 6000次epoch 7000次epoch 8000次epoch 9000次epoch 10000次epoch

最后一层的梯度和m分布直方图

最后输出在各个维度的分布：