Pitch 09 · Cloud GPU Execution

CloudPlan

中国版和海外版不应该争论谁唯一正确。产品层统一训练任务规范，供应商层按市场切换，让机器人训练成本、地域和合规变成可管理变量。

供应商路径打开控制台原型

01 · Provider Roles

双路径，单接口：训练规范统一，云供应商可替换。

比赛阶段不需要绑定一家云。正确产品设计是：同一份 LeRobot 训练任务，可以在中国云和海外云分别执行，最终导出同一种 Qualcomm edge deployment package。

AutoDL 或阿里云 PAI DSW，适合快速跑通 notebook、镜像和小规模 ACT 训练。

阿里云 PAI / 华为 ModelArts / 腾讯云 GPU，适合讲合规、企业账号和资源治理。

Runpod Pods 或 Lambda Instances，适合按小时租 A100/H100 并快速复现实验。

Modal 适合评估、导出、数据转换和短时 serverless job，不一定承担长训练。

02 · Budget Story

公开价格只能作为可行性锚点，正式训练前必须重新确认。项目书里应强调 GPU-hours 上限、任务模板、评估报告和边缘部署包，而不是承诺固定价格。

2-8h 早期 demo：小数据集 ACT 训练与一次评估。

8-40h 复赛阶段：多轮失败回流与参数比较。

A100 优先作为可控训练锚点；H100/H200 用于前瞻故事。

cap 每个训练任务设置 GPU-hour 上限，防止预算失控。

03 · Adapter Interface

CloudTwin 不应该把业务逻辑写死在某家云。产品层只认识数据集、策略、机器人 profile、GPU 预算和导出目标；adapter 负责把它翻译成 Runpod、Lambda、PAI、AutoDL 等具体任务。

dataset、policy、robot profile、GPU budget。

China or global adapter selects concrete service。

Run ACT / VLA job with reproducible image。

Generate success, latency, smoothness report。

Produce Qualcomm edge deployment package。

04 · Execution Stages

这保证初赛材料可以马上展示，复赛阶段也能逐步替换成真实训练日志和边缘指标。

静态 prototype dashboard，模拟训练任务和部署包。

Runpod 或 Lambda 跑一次小型 LeRobot ACT 训练。

AutoDL 或阿里云 PAI 复现同一 job spec。

把 artifact manifest 接入 Prototype / DragonWorks 页面。

云 GPU 是手段，真正的产品是：机器人训练从不可控工程，变成可预算、可复现、可部署的 job。

Runpod Lambda Modal 阿里云 PAI 腾讯云 GPU