Skip to content

GPU选型


目前平台提供的GPU算力

显卡显存(GB)内存(GB/卡)CPU配置存储操作平台
RTX 4090D241002.6GHz 18Core100G系统盘Linux
RTX 4090481203.7GHz 32Core100G系统盘Linux
RTX 409024902.5GHz 14Core30G系统盘Linux
RTX 309024602.5GHz 14Core30G系统盘Linux

资源分配规则

比例分配机制

CPU与内存按购买的GPU数量成比例分配。产品服务显示的CPU和内存均为每张GPU分配的CPU和内存,如果租用两块GPU,那么CPU和内存就x2。

GPU独占性

每块GPU由实例独占使用,无资源共享问题。

选择CPU

CPU非常重要! 尽管CPU并不直接参与深度学习模型计算,但CPU需要提供大于模型训练吞吐的数据处理能力。

性能说明

分配更多核心通常不会显著提升性能,此时瓶颈通常源于:

  • Python多进程切换开销
  • 数据通信开销(如PyTorch DataLoader)

选择GPU

目前平台上提供的4种规格的GPU型号,后续会陆续推出其它型号的GPU供客户选择。

选择内存

⚠️严格内存限制

实例内存使用存在硬性上限,超出限制将直接终止进程,不同于本地电脑的虚拟内存机制。

🚫 危险操作预警

内存超限会导致实例自动重置,系统盘所有数据将被清空。

✅解决方案

  • 预估内存需求,选择更高配置主机
  • 多GPU实例可扩展总内存容量
  • 实时通过控制台 -> 实例管理 ->「运行详情」查看内存占用

内存监控1

内存监控2

🌟 高手秘籍

训练前通过小规模数据测试内存消耗峰值,预留20%安全余量。

🚫避坑指南

  • 务必检查CUDA版本与框架兼容性!
  • 内存监控预警设为90%,避免进程意外终止。
  • 训练过程中如果显存爆了可以尝试释放当前实例,租用多卡实例。