1.m初值1.0,λ=0.0001,50000epoch,lr变动5000/1000/500/100


loss分为两部分,蓝-λ橙

对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差

m的变化和最终m,详细

最后一层的梯度和m分布直方图

最后输出在各个维度的分布:

2.m初值1.0,λ=0.0001,200000epoch,lr固定5000


loss分为两部分,蓝-λ橙

对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差

MSE的梯度 H(m)的梯度


m的变化和最终m,详细

20000次epoch 40000次epoch 60000次epoch 80000次epoch 100000次epoch 120000次epoch 140000次epoch 160000次epoch 180000次epoch 200000次epoch


最后一层的梯度和m分布直方图

最后输出在各个维度的分布:

3.m初值1.0,λ=0.0001,10000epoch,lr固定50000


loss分为两部分,蓝-λ橙

对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差

MSE的梯度 H(m)的梯度


m的变化和最终m,详细

1000次epoch 2000次epoch 3000次epoch 4000次epoch 5000次epoch 6000次epoch 7000次epoch 8000次epoch 9000次epoch 10000次epoch


最后一层的梯度和m分布直方图

最后输出在各个维度的分布: