增大学习率至收敛
1.m初值1.0,λ=0.0001,50000epoch,lr变动5000/1000/500/100
lr_mfrom1.0_remain_lambda0.0001_abs/loss.png)
lr_mfrom1.0_remain_lambda0.0001_abs/loss_two_parts.png)
loss分为两部分,蓝-λ橙
lr_mfrom1.0_remain_lambda0.0001_abs/loss_two_parts_grad_mean.png)
lr_mfrom1.0_remain_lambda0.0001_abs/loss_two_parts_grad_var.png)
对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差
lr_mfrom1.0_remain_lambda0.0001_abs/m_changes.png)
lr_mfrom1.0_remain_lambda0.0001_abs/m.png)
m的变化和最终m,详细
lr_mfrom1.0_remain_lambda0.0001_abs/outputGrad.png)
lr_mfrom1.0_remain_lambda0.0001_abs/avgm-onpoint.png)
最后一层的梯度和m分布直方图
lr_mfrom1.0_remain_lambda0.0001_abs/music_mask_24999.png)
lr_mfrom1.0_remain_lambda0.0001_abs/music_mask_49999.png)
最后输出在各个维度的分布:
lr_mfrom1.0_remain_lambda0.0001_abs/remove_50high.png)
lr_mfrom1.0_remain_lambda0.0001_abs/remove_50low.png)
lr_mfrom1.0_remain_lambda0.0001_abs/remove_80high.png)
lr_mfrom1.0_remain_lambda0.0001_abs/remove_80low.png)
2.m初值1.0,λ=0.0001,200000epoch,lr固定5000


loss分为两部分,蓝-λ橙


对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差


m的变化和最终m,详细
20000次epoch 40000次epoch 60000次epoch 80000次epoch 100000次epoch 120000次epoch 140000次epoch 160000次epoch 180000次epoch 200000次epoch


最后一层的梯度和m分布直方图


最后输出在各个维度的分布:




3.m初值1.0,λ=0.0001,10000epoch,lr固定50000


loss分为两部分,蓝-λ橙


对m梯度分为两部分,蓝-λ橙。这里分别看梯度的平均值和方差


m的变化和最终m,详细
1000次epoch 2000次epoch 3000次epoch 4000次epoch 5000次epoch 6000次epoch 7000次epoch 8000次epoch 9000次epoch 10000次epoch


最后一层的梯度和m分布直方图


最后输出在各个维度的分布:



