使用GPU训练图片识别模型遇到的问题

我已经用CPU训练完成了基于MNIST图片分类模型,但在用GPU训练模型(jt.flags.use_cuda = 1)时一直卡在了第1Epoch的99%,并且报错。


请问有人知道这种情况怎么解决吗?

您可以按照提示,设置运行以下命令,设置环境变量,再运行看结果来定位更准确的信息吗?

export JT_SYNC=1
export trace_py_var=3

也有可能是 conda 的问题,可以运行 unset LD_LIBRARY_PATH,从而防止 conda 的 cuda 环境和 jittor 使用的 cuda 混淆。

运行以下命令后
export JT_SYNC=1
export trace_py_var=3

unset LD_LIBRARY_PATH
无效。
请问还有什么解决方法吗?
程序运行结果如下:

我已安装cuda11.4
image