Skip to content

训练进程与监控

1. 后台训练与守护进程方式(防中断)

后台训练推荐使用会话管理工具或守护进程方式运行任务,常见方式包括:

  • tmux(推荐)
  • screen
  • nohup / setsid

说明:tmux 与 screen 默认多数系统未预装,需要手动安装,安装命令如下:

bash
sudo apt install -y tmux screen

1.1 使用 tmux(推荐)

tmux 支持多窗口、多会话管理,稳定性高,适合长期训练任务。

创建新会话

bash
tmux new -s train

在会话中启动训练

bash
python train.py

临时离开会话(不中断任务)

bash
Ctrl + B,然后按 D

说明:部分终端(如 Web Terminal / JupyterLab 终端等)可能无法完整传递组合快捷键,或与宿主应用快捷键冲突,导致 Ctrl + B 前缀与后续按键无法生效。 若遇到此情况,可直接关闭当前终端窗口或标签页,tmux 会话仍会在后台保持运行;之后再通过 tmux lstmux attach -t train 重新连接。

查看所有会话

bash
tmux ls

重新连接会话

bash
tmux attach -t train

关闭当前会话

bash
tmux kill-session -t train

常用快捷键速查 (此处可放置 tmux 操作截图)


1.2 使用 screen

screen 功能与 tmux 类似,但维护性略弱,适合简单后台任务。

创建会话

bash
screen -S train

启动训练

bash
python train.py

离开会话

bash
Ctrl + A,然后按 D

查看会话

bash
screen -ls

恢复会话

bash
screen -r train

1.3 使用 nohup / setsid

nohup 适合简单后台运行场景,但不支持交互式管理。

推荐组合使用 setsid + nohup:

bash
setsid nohup python train.py > output.log 2>&1 &

查看输出日志

bash
tail -f output.log

注意:nohup 模式下无法重新进入交互环境,仅适合一次性任务。

2. 进程管理与资源监控命令

查看 GPU 状态

bash
nvidia-smi

实时刷新显存占用

bash
watch nvidia-smi

使用 nvtop 进行可视化监控(推荐)

nvtop 提供类 top 的 GPU 实时监控界面,更直观。

安装 nvtop(需手动安装)

bash
sudo apt install -y nvtop

启动监控

bash
nvtop

强制终止训练进程

bash
kill -9 <进程ID>