使用GPU训练图片识别模型遇到的问题

islandLZ · 2021 年10 月 26 日 08:50

我已经用CPU训练完成了基于MNIST图片分类模型，但在用GPU训练模型（jt.flags.use_cuda = 1）时一直卡在了第1Epoch的99%，并且报错。

请问有人知道这种情况怎么解决吗？

lzhengning · 2021 年10 月 26 日 08:53

您可以按照提示，设置运行以下命令，设置环境变量，再运行看结果来定位更准确的信息吗？

export JT_SYNC=1
export trace_py_var=3

lzhengning · 2021 年10 月 26 日 09:15

也有可能是 conda 的问题，可以运行 unset LD_LIBRARY_PATH，从而防止 conda 的 cuda 环境和 jittor 使用的 cuda 混淆。

islandLZ · 2021 年10 月 30 日 05:53

运行以下命令后
export JT_SYNC=1
export trace_py_var=3
和
unset LD_LIBRARY_PATH
无效。
请问还有什么解决方法吗？
程序运行结果如下：

我已安装cuda11.4