增大学习率至收敛
1.m初值1.0,λ=0.0001,50000epoch,lr变动5000/1000/500/100
loss分为两部分,蓝-λ橙
对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差
m的变化和最终m,详细
最后一层的梯度和m分布直方图
最后输出在各个维度的分布:
2.m初值1.0,λ=0.0001,200000epoch,lr固定5000
loss分为两部分,蓝-λ橙
对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差
m的变化和最终m,详细
20000次epoch 40000次epoch 60000次epoch 80000次epoch 100000次epoch 120000次epoch 140000次epoch 160000次epoch 180000次epoch 200000次epoch
最后一层的梯度和m分布直方图
最后输出在各个维度的分布:
3.m初值1.0,λ=0.0001,10000epoch,lr固定50000
loss分为两部分,蓝-λ橙
对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差
m的变化和最终m,详细
1000次epoch 2000次epoch 3000次epoch 4000次epoch 5000次epoch 6000次epoch 7000次epoch 8000次epoch 9000次epoch 10000次epoch
最后一层的梯度和m分布直方图
最后输出在各个维度的分布: