Appearance
训练进程与监控
1. 后台训练与守护进程方式(防中断)
后台训练推荐使用会话管理工具或守护进程方式运行任务,常见方式包括:
- tmux(推荐)
- screen
- nohup / setsid
说明:tmux 与 screen 默认多数系统未预装,需要手动安装,安装命令如下:
bash
sudo apt install -y tmux screen1.1 使用 tmux(推荐)
tmux 支持多窗口、多会话管理,稳定性高,适合长期训练任务。
创建新会话
bash
tmux new -s train在会话中启动训练
bash
python train.py临时离开会话(不中断任务)
bash
Ctrl + B,然后按 D说明:部分终端(如 Web Terminal / JupyterLab 终端等)可能无法完整传递组合快捷键,或与宿主应用快捷键冲突,导致
Ctrl + B前缀与后续按键无法生效。 若遇到此情况,可直接关闭当前终端窗口或标签页,tmux 会话仍会在后台保持运行;之后再通过tmux ls与tmux attach -t train重新连接。
查看所有会话
bash
tmux ls重新连接会话
bash
tmux attach -t train关闭当前会话
bash
tmux kill-session -t train常用快捷键速查 (此处可放置 tmux 操作截图)
1.2 使用 screen
screen 功能与 tmux 类似,但维护性略弱,适合简单后台任务。
创建会话
bash
screen -S train启动训练
bash
python train.py离开会话
bash
Ctrl + A,然后按 D查看会话
bash
screen -ls恢复会话
bash
screen -r train1.3 使用 nohup / setsid
nohup 适合简单后台运行场景,但不支持交互式管理。
推荐组合使用 setsid + nohup:
bash
setsid nohup python train.py > output.log 2>&1 &查看输出日志
bash
tail -f output.log注意:nohup 模式下无法重新进入交互环境,仅适合一次性任务。
2. 进程管理与资源监控命令
查看 GPU 状态
bash
nvidia-smi实时刷新显存占用
bash
watch nvidia-smi使用 nvtop 进行可视化监控(推荐)
nvtop 提供类 top 的 GPU 实时监控界面,更直观。
安装 nvtop(需手动安装)
bash
sudo apt install -y nvtop启动监控
bash
nvtop强制终止训练进程
bash
kill -9 <进程ID>