CloudPlan

Pitch 09 · Cloud GPU Execution

CloudPlan

中国版和海外版不应该争论谁唯一正确。产品层统一训练任务规范,供应商层按市场切换,让机器人训练成本、地域和合规变成可管理变量。

01 · Provider Roles

双路径,单接口:训练规范统一,云供应商可替换。

比赛阶段不需要绑定一家云。正确产品设计是:同一份 LeRobot 训练任务,可以在中国云和海外云分别执行,最终导出同一种 Qualcomm edge deployment package。

中国快速实验

AutoDL 或阿里云 PAI DSW,适合快速跑通 notebook、镜像和小规模 ACT 训练。

中国企业叙事

阿里云 PAI / 华为 ModelArts / 腾讯云 GPU,适合讲合规、企业账号和资源治理。

海外开发者

Runpod Pods 或 Lambda Instances,适合按小时租 A100/H100 并快速复现实验。

异步任务

Modal 适合评估、导出、数据转换和短时 serverless job,不一定承担长训练。

02 · Budget Story

卖点不是“便宜 GPU”,而是让机器人训练预算可控。

公开价格只能作为可行性锚点,正式训练前必须重新确认。项目书里应强调 GPU-hours 上限、任务模板、评估报告和边缘部署包,而不是承诺固定价格。

2-8h 早期 demo:小数据集 ACT 训练与一次评估。
8-40h 复赛阶段:多轮失败回流与参数比较。
A100 优先作为可控训练锚点;H100/H200 用于前瞻故事。
cap 每个训练任务设置 GPU-hour 上限,防止预算失控。

03 · Adapter Interface

供应商不同,但训练 job spec 必须统一。

CloudTwin 不应该把业务逻辑写死在某家云。产品层只认识数据集、策略、机器人 profile、GPU 预算和导出目标;adapter 负责把它翻译成 Runpod、Lambda、PAI、AutoDL 等具体任务。

Job spec

dataset、policy、robot profile、GPU budget。

Provider

China or global adapter selects concrete service。

Train

Run ACT / VLA job with reproducible image。

Evaluate

Generate success, latency, smoothness report。

Export

Produce Qualcomm edge deployment package。

04 · Execution Stages

先不依赖真实云账号,再逐步接入真实训练。

这保证初赛材料可以马上展示,复赛阶段也能逐步替换成真实训练日志和边缘指标。

Stage 1

静态 prototype dashboard,模拟训练任务和部署包。

Stage 2

Runpod 或 Lambda 跑一次小型 LeRobot ACT 训练。

Stage 3

AutoDL 或阿里云 PAI 复现同一 job spec。

Stage 4

把 artifact manifest 接入 Prototype / DragonWorks 页面。

云 GPU 是手段,真正的产品是:机器人训练从不可控工程,变成可预算、可复现、可部署的 job。