Skip to content

智算云扉 Linux 实用命令手册


📂一、文件与目录操作

1.1 文件查看

bash
ls      # 列出当前目录内容
ls -l   # 详细显示文件信息(权限/所有者/大小等)
ls -a   # 显示所有文件(包括隐藏文件)

1.2 目录操作

bash
mkdir dir_name    # 创建新目录
cd dir_name       # 进入目录
cd ..             # 返回上级目录
pwd               # 显示当前工作路径

1.3 文件操作

bash
mv file1 file2    # 重命名或移动文件
cp file dir/      # 复制文件到目录
rm file           # 删除文件
rm -r dir         # 递归删除目录

二、系统监控与管理

2.1 GPU监控

bash
nvidia-smi        # 查看GPU使用情况
watch -n 1 nvidia-smi  # 实时监控GPU(每秒刷新)

2.2 进程管理

bash
ps aux           # 查看所有进程
kill -9 PID      # 强制终止进程
top              # 动态查看系统资源占用
htop             # 增强版系统监控(需安装,命令:apt install htop -y)

⚙️ 三、环境配置

3.1 环境变量设置

bash
export PATH=/new/path:$PATH  # 临时添加环境变量
echo $PATH       # 查看当前PATH

3.2 持久化配置

bash
vim ~/.bashrc    # 编辑配置文件
source ~/.bashrc # 使配置立即生效

📦 四、文件处理工具

4.1 文本编辑

bash
vim file.txt     # 使用vim编辑
nano file.txt    # 使用nano编辑(更简单)

4.2 压缩解压

bash
# zip格式
zip -r archive.zip dir/
unzip archive.zip

# tar.gz格式
tar czf archive.tar.gz dir/
tar xzf archive.tar.gz

更多操作命令

💡 五、实用技巧

5.1 日志管理

bash
python train.py > log.txt 2>&1 # 保存标准输出和错误
tail -f log.txt # 实时查看日志

5.2 后台运行

bash
nohup python train.py & # 后台运行程序
jobs # 查看后台任务
fg %1 # 将任务调回前台

六 、守护进程

🔴核心风险警示

  1. 连接中断风险
    通过SSH或基于SSH的工具(如XShell/VSCode/PyCharm)远程执行任务时,必须启用守护进程
  2. 损失预警 非守护模式下连接断开将直接终止进程,可能造成数小时计算成果丢失

🟢6.1 JupyterLab终端(推荐新手)

nohup & 守护进程

  • 始终在后台运行
  • 独立于控制终端(终端关闭不会影响到守护进程的关闭)

启动守护进程

nohup ./startup.sh &
[1] 4825
nohup: ignoring input and appending output to ‘nohup.out’

查看进程状态

ps -ef|grep startup.sh

图片描述

🧠 记住这一点

意外关闭终端标签页后:左侧导航栏中找回

图片描述

日志管理黄金法则

# 标准日志重定向(含错误流)
nohup python train.py > train.log 2>&1  &
# 实时追踪日志
tail -f train.log

🟠6.2 Screen/Tmux(推荐高阶)

核心优势

只要Screen本身没有终止,其内部会话均可恢复。网络中断后重新登录执行 screen -r 即可恢复会话。

一键部署方案

bash
1. 在线安装
sudo apt-get screen
2. 离线安装
rpm -ivh screen-4.1.0-0.27.20120314git3c2946.el7_9.x86_64.rpm

会话操作速查表

操作类型命令/快捷键
新建会话screen -U
暂时离开Ctrl+A + D
查看后台窗口screen -ls
恢复会话screen -r 会话ID
强制终止Ctrl+Z

🚨6.3 故障熔断机制

  1. 异常状态自检

    现象: 会话恢复后卡死 解决方案: screen -wipe # 清理无效会话

  2. 中文乱码应急方案

bash
永久解决方案(写入配置文件)
echo "defencoding UTF-8" >> ~/.screenrc

💡 最佳实践建议

关键任务始终使用守护模式 定期检查会话状态 重要日志实时备份

七、常见问题处理

7.1 GPU显存释放

bash
nvidia-smi # 查看占用进程
kill -9 PID # 终止占用进程

7.2 内存泄漏排查

bash
free -h # 查看内存使用
top # 监控进程内存占用

7.3 文件共享方案

bash

# 使用共享存储目录

cp model.pth /mnt/shared/

7.4 训练日志保存

bash

# 使用tee命令同时输出到屏幕和文件

python train.py 2>&1 | tee train.log

⚠️ 注意

本手册专为智算云扉平台设计,所有命令均在Ubuntu 20.04/22.04 LTS环境下测试通过。建议用户先在小规模测试环境中验证命令效果,再应用到生产环境。