TrainRouter

Pitch 25 · Dual-Cloud GPU Training Router

TrainRouter

机器人团队不应该手动比较每家 GPU 云。TrainRouter 把 LeRobot job contract 路由到中国云或海外云,控制预算、数据边界和评估一致性,最后输出统一的 Qualcomm edge deployment package。

01 · Job Routing Contract

卖点不是便宜 GPU,而是训练过程变得可控。

用户提交数据集、策略类型、目标硬件、预算和数据地域,TrainRouter 负责选择 provider、启动训练、监控花费、统一评估,并把输出带回 Qualcomm 本体部署链路。

Contract

LeRobot dataset、policy、target profile、budget 和 region。

Route

根据中国版、海外版、预算、库存和数据边界选择训练 lane。

Train

在 AutoDL、PAI、Runpod、Lambda 或 Modal 执行任务。

Eval

同一套评估脚本比较成功率、失败类型和动作质量。

Export

输出 Qualcomm edge package、回滚包和运行证据。

中国云和海外云 GPU 训练路由及 Qualcomm 边缘部署图

02 · Provider Matrix

中国版和海外版可以不同,但训练合约必须相同。

TrainRouter 把云厂商差异封装在 adapter 层。客户看到的是训练任务、预算、数据边界和 edge artifact,而不是每家云的控制台细节。

AutoDL

中国开发者快速试验,适合比赛阶段小规模 ACT 训练。

阿里云 PAI

中国企业训练主路径,适合强调数据、训练、部署和审计。

腾讯云 GPU

国内弹性 GPU 与 IaaS 训练资源,适合补充供应和价格弹性。

Runpod

海外开发者快速启动,适合跑 LeRobot 原型和低摩擦实验。

Lambda

海外团队训练和集群故事,适合强调透明 GPU 实例和规模。

Modal

短任务、评估、导出和 serverless job,适合异步训练工具链。

03 · Budget And Data Guard

商业客户需要的是边界,不是无限试错。

TrainRouter 把 GPU-hour、数据地域、私有存储、训练时长和失败重试写进任务合约。预算接近阈值时自动停机或请求确认,数据默认不跨区域。

  • 中国客户数据默认进入 China lane,不跨境训练。
  • 海外公开 demo 数据可以进入 Overseas lane 或 Auto route。
  • 每个训练任务有 max GPU-hour、max cost 和 timeout。
  • 每个 provider 输出的模型必须通过同一套 eval harness。
GPU 训练预算控制和数据边界路由图

04 · Qualcomm Edge Value

云可以多变,机器人本体目标必须稳定。

TrainRouter 把 GPU 云的不确定性压在 provider adapter 层,把稳定的部署目标留给 Qualcomm edge。无论模型在哪个云训练,最终都进入同一种 runtime、benchmark、认证和技能市场链路。

Any Cloud 中国云和海外云都只是训练资源,产品接口保持一致。
One Target 训练结果导出到 QCS8550 / QCS6490 / IQ 系列 edge profile。
Evidence 模型进入 EdgeRuntimeBench,生成延迟、资源和部署证据。
Marketplace 通过 SkillCertKit 后,训练结果能成为 SkillDock 可售技能。

TrainRouter 把“找一块云 GPU 跑训练”变成“提交机器人任务,按预算得到可部署的 Qualcomm edge artifact”。