多卡训练卡顿

和系统时间对比,可以看到过去10分钟了,下一次迭代还是没出来

您好,jittor多卡训练时需要注意保持所有进程的计算过程是一致的,测试时也需要注意统计全局信息的方式。更多的信息可以查看相关文档 jittor.mpi — Jittor 1.3.5.12 文档 (tsinghua.edu.cn)

此外,可以在每个迭代后加一句 jt.sync_all() 同步计算图,在某些情况下可以解决卡顿问题。