Appearance
智算云扉 Linux 实用命令手册
📂一、文件与目录操作
1.1 文件查看
bash
ls # 列出当前目录内容
ls -l # 详细显示文件信息(权限/所有者/大小等)
ls -a # 显示所有文件(包括隐藏文件)
1.2 目录操作
bash
mkdir dir_name # 创建新目录
cd dir_name # 进入目录
cd .. # 返回上级目录
pwd # 显示当前工作路径
1.3 文件操作
bash
mv file1 file2 # 重命名或移动文件
cp file dir/ # 复制文件到目录
rm file # 删除文件
rm -r dir # 递归删除目录
二、系统监控与管理
2.1 GPU监控
bash
nvidia-smi # 查看GPU使用情况
watch -n 1 nvidia-smi # 实时监控GPU(每秒刷新)
2.2 进程管理
bash
ps aux # 查看所有进程
kill -9 PID # 强制终止进程
top # 动态查看系统资源占用
htop # 增强版系统监控(需安装,命令:apt install htop -y)
⚙️ 三、环境配置
3.1 环境变量设置
bash
export PATH=/new/path:$PATH # 临时添加环境变量
echo $PATH # 查看当前PATH
3.2 持久化配置
bash
vim ~/.bashrc # 编辑配置文件
source ~/.bashrc # 使配置立即生效
📦 四、文件处理工具
4.1 文本编辑
bash
vim file.txt # 使用vim编辑
nano file.txt # 使用nano编辑(更简单)
4.2 压缩解压
bash
# zip格式
zip -r archive.zip dir/
unzip archive.zip
# tar.gz格式
tar czf archive.tar.gz dir/
tar xzf archive.tar.gz
💡 五、实用技巧
5.1 日志管理
bash
python train.py > log.txt 2>&1 # 保存标准输出和错误
tail -f log.txt # 实时查看日志
5.2 后台运行
bash
nohup python train.py & # 后台运行程序
jobs # 查看后台任务
fg %1 # 将任务调回前台
六 、守护进程
🔴核心风险警示
- 连接中断风险
通过SSH或基于SSH的工具(如XShell/VSCode/PyCharm)远程执行任务时,必须启用守护进程 - 损失预警 非守护模式下连接断开将直接终止进程,可能造成数小时计算成果丢失
🟢6.1 JupyterLab终端(推荐新手)
nohup & 守护进程
- 始终在后台运行
- 独立于控制终端(终端关闭不会影响到守护进程的关闭)
启动守护进程
nohup ./startup.sh &
[1] 4825
nohup: ignoring input and appending output to ‘nohup.out’
查看进程状态
ps -ef|grep startup.sh
🧠 记住这一点
意外关闭终端标签页后:左侧导航栏中找回
日志管理黄金法则
# 标准日志重定向(含错误流)
nohup python train.py > train.log 2>&1 &
# 实时追踪日志
tail -f train.log
🟠6.2 Screen/Tmux(推荐高阶)
核心优势
只要Screen本身没有终止,其内部会话均可恢复。网络中断后重新登录执行 screen -r 即可恢复会话。
一键部署方案
bash
1. 在线安装
sudo apt-get screen
2. 离线安装
rpm -ivh screen-4.1.0-0.27.20120314git3c2946.el7_9.x86_64.rpm
会话操作速查表
操作类型 | 命令/快捷键 |
---|---|
新建会话 | screen -U |
暂时离开 | Ctrl+A + D |
查看后台窗口 | screen -ls |
恢复会话 | screen -r 会话ID |
强制终止 | Ctrl+Z |
🚨6.3 故障熔断机制
异常状态自检
现象: 会话恢复后卡死 解决方案:
screen -wipe # 清理无效会话
中文乱码应急方案
bash
永久解决方案(写入配置文件)
echo "defencoding UTF-8" >> ~/.screenrc
💡 最佳实践建议
关键任务始终使用守护模式 定期检查会话状态 重要日志实时备份
七、常见问题处理
7.1 GPU显存释放
bash
nvidia-smi # 查看占用进程
kill -9 PID # 终止占用进程
7.2 内存泄漏排查
bash
free -h # 查看内存使用
top # 监控进程内存占用
7.3 文件共享方案
bash
# 使用共享存储目录
cp model.pth /mnt/shared/
7.4 训练日志保存
bash
# 使用tee命令同时输出到屏幕和文件
python train.py 2>&1 | tee train.log
⚠️ 注意
本手册专为智算云扉平台设计,所有命令均在Ubuntu 20.04/22.04 LTS环境下测试通过。建议用户先在小规模测试环境中验证命令效果,再应用到生产环境。