训练自己的数据集出现Nan #36

zhangshaojie1993 · 2023-09-06T04:10:28Z

每次在训练到接近8K iterations的时候都会出现loss为Nan的情况，数据集里有自己业务的数据。

Yu-Cheung · 2023-09-07T06:33:13Z

学习率太高了吗？导致梯度爆炸？

zhangshaojie1993 · 2023-09-07T08:05:00Z

学习率太高了吗？导致梯度爆炸？
用的作者默认的学习率

Yu-Cheung · 2023-09-07T08:11:14Z

学习率太高了吗？导致梯度爆炸？
用的作者默认的学习率

那我不太懂了。我训练也出问题了，我准备重新训练的，目前联系作者联系不上，可能他太忙了。我训练的时候，loss是稳定上升，最后趋于收敛了，我也搞不懂原因

zhangshaojie1993 · 2023-09-08T03:10:10Z

@gangweiX 我只使用sceneflow数据集训练了一把，还是出现了nan，使用的是作者训练代码里的默认参数，能帮忙解答一下吗？

Windsrain · 2023-09-09T09:18:08Z

你好，你的问题可能有三种原因：

在不同设备上，seed即便相同初始化可能也会不同，可以尝试改一下seed；
半精度混合训练虽然提高了训练速度，但只有16bit，当数据过大时，容易发生溢出，出现nan，可以尝试关闭；（在train._stereo.py第206行，把mixed_precision的default参数删除，不要把default设置为False，参数判断的是有无字符串）
初始视差用的smooth_l1_loss监督，其余视差用的l1_loss监督，不同loss可能影响训练的稳定性，可以尝试都换成l1_loss。

另外，我建议可以直接加载sceneflow的预训练模型，然后在自己的数据集上训练，避免重新训练造成的不稳定。

zhangshaojie1993 · 2023-09-11T10:19:21Z

你好，你的问题可能有三种原因：

1. 在不同设备上，seed即便相同初始化可能也会不同，可以尝试改一下seed；

2. 半精度混合训练虽然提高了训练速度，但只有16bit，当数据过大时，容易发生溢出，出现nan，可以尝试关闭；（在train._stereo.py第206行，把mixed_precision的default参数删除，不要把default设置为False，参数判断的是有无字符串）

3. 初始视差用的smooth_l1_loss监督，其余视差用的l1_loss监督，不同loss可能影响训练的稳定性，可以尝试都换成l1_loss。

另外，我建议可以直接加载sceneflow的预训练模型，然后在自己的数据集上训练，避免重新训练造成的不稳定。

非常感谢！！我后来就是用的sceneflow预训练模型来训练的，并且学习率调成了之前的1/10，训练变稳定了！

1790426751 · 2023-11-02T06:39:52Z

你好，我在复现论文时发现训练过程中会出现nan，所以我在代码中添加以下代码（图中画圈的）想要查看跑到第几个epoch时会出现nan。然后，我发现在训练一开始就有参数的梯度是nan，请问这是正常的吗？

gangweiX · 2023-11-02T18:19:27Z

这是不正常的，我们训练的时候没有出现NAN 2023-11-02 14:40:03>1790426751 写道：你好，我在复现论文时发现训练过程中会出现nan，所以我在代码中添加以下代码（图中画圈的）想要查看跑到第几个epoch时会出现nan。然后，我发现在训练一开始就有参数的梯度是nan，请问这是正常的吗？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

1790426751 · 2023-11-03T01:53:57Z

感谢您之前的回复，我还有一个小问题想要请教：就是关于训练参数--slow_fast_gru的设置，我看这个参数在前身RAFT-Stereo中说可以提高计算速度，但是在您的论文并没有提到这点，在代码中这参数也是默认为false的。请问这个参数我要设置为true还是保持默认就好？

gangweiX · 2023-11-03T08:34:12Z

我觉得看你的需求，如果你想快一点，可以设置一下2023-11-03 09:54:08>1790426751 写道：感谢您之前的回复，我还有一个小问题想要请教：就是关于训练参数--slow_fast_gru的设置，我看这个参数在前身RAFT-Stereo中说可以提高计算速度，但是在您的论文并没有提到这点，在代码中这参数也是默认为false的。请问这个参数我要设置为true还是保持默认就好？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

Luckyangle1232 · 2023-11-30T11:50:19Z

作者您好，我在sceneflow数据集上训练您的模型时，发现如果将lr设置为0.001，batchsize=2，然后跑到5k步左右的时候，3像素偏差会出现nan，我想咨询一下，如果batchsize设置只能是2的话，如果让网络可以快速下降，lr应该设置为多少呢

gangweiX · 2023-11-30T12:31:42Z

batchsize最好设置大一点，太小容易震荡容易出现nan，如果batchsize太小的话，试试梯度累计，将多个batch的loss求平均后再反向传播。或者把 core中的igev_stereo.py with autocast(enabled=self.args.mixed_precision): 改成enabled=False试试，我能想到的了，如果还不行，可能还是需要调整batchsize。2023-11-30 19:50:29>Wade_Lucky 写道：作者您好，我在sceneflow数据集上训练您的模型时，发现如果将lr设置为0.001，batchsize=2，然后跑到5k步左右的时候，3像素偏差会出现nan，我想咨询一下，如果batchsize设置只能是2的话，如果让网络可以快速下降，lr应该设置为多少呢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

zhangshaojie1993 closed this as completed Sep 11, 2023

zhangshaojie1993 reopened this Sep 11, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练自己的数据集出现Nan #36

训练自己的数据集出现Nan #36

zhangshaojie1993 commented Sep 6, 2023

Yu-Cheung commented Sep 7, 2023

zhangshaojie1993 commented Sep 7, 2023

Yu-Cheung commented Sep 7, 2023

zhangshaojie1993 commented Sep 8, 2023

Windsrain commented Sep 9, 2023

zhangshaojie1993 commented Sep 11, 2023

1790426751 commented Nov 2, 2023

gangweiX commented Nov 2, 2023 via email

1790426751 commented Nov 3, 2023

gangweiX commented Nov 3, 2023 via email

Luckyangle1232 commented Nov 30, 2023

gangweiX commented Nov 30, 2023 via email

训练自己的数据集出现Nan #36

训练自己的数据集出现Nan #36

Comments

zhangshaojie1993 commented Sep 6, 2023

Yu-Cheung commented Sep 7, 2023

zhangshaojie1993 commented Sep 7, 2023

Yu-Cheung commented Sep 7, 2023

zhangshaojie1993 commented Sep 8, 2023

Windsrain commented Sep 9, 2023

zhangshaojie1993 commented Sep 11, 2023

1790426751 commented Nov 2, 2023

gangweiX commented Nov 2, 2023 via email

1790426751 commented Nov 3, 2023

gangweiX commented Nov 3, 2023 via email

Luckyangle1232 commented Nov 30, 2023

gangweiX commented Nov 30, 2023 via email