阿里云百炼平台模型部署教程:三种计费方案对比与Qwen3.7限时5折优惠全解析

想把大模型真正用起来?阿里云百炼让你一步到位!无论是平台预置模型还是自己调优的模型,都能一键部署,拿到独立专享的推理服务,高并发、低延迟全搞定。三种计费方式随你选:预置吞吐PTU适合高负载场景,模型单元适合私有化部署,Token用量适合调优验证,按需付费灵活可控。部署完直接用OpenAI兼容接口、DashScope或Assistant SDK调用,代码示例都给你备好了。遇到权限不足、计费切换等问题?文中逐一解答,不踩坑。现在入手还有重磅优惠:Qwen3.7-Max限时5折、HappyHorse视频模型8折、Token Plan多档套餐,再加上轻量应用服务器38元/年起,AI落地成本直接打下来。

一、三种部署计费方式对比

部署前可在模型部署控制台(北京)查看不同模型的预估每小时费用。需注意:计费方式在服务创建后不可更改,如需切换,须先下线已部署模型,再重新部署。通过阿里云百炼大模型服务平台:https://www.aliyun.com/product/bailian 登录阿里云百炼控制台,导航至“模型部署”页面,点击“部署新模型”。

预置吞吐(PTU)模型单元Token 用量
定义通过平台预留资源,保障特定TPM吞吐能力,额度内不限速按使用时长与模型单元数量配置算力,资源独占以每次调用产生的输入/输出Token作为用量计量依据
优势① 高负载环境吞吐稳定、延迟更低 ② TPS较按Token计费提升约1.5~2.0倍 ③ 支持自动续费① 延迟/吞吐可自定义 ② 支持自动续费 ③ 支持PD分离计算模式不使用不计费
支持模型部分预置模型部分预置模型与所有调优后模型部分LoRA调优后的模型
典型场景银行智能客服、内容审核、翻译API电商私有模型、分子筛选、自动驾驶仿真调优后模型效果验证
计费方式按使用时长和预置吞吐,随用随付/包天按使用时长和模型单元数量,随用随付/包月按Token使用量,随用随付
扩缩容自助增减吞吐量自助增减模型单元数量控制台提交申请,人工审核
产品约束预付费按天,不可提前退费;超量自动切换为按量付费首月内提前退订,日单价按1.2倍计费仅支持部分LoRA模型;一个月不使用自动释放

二、计费详情

1. 预置吞吐(PTU)计费

费用 = 使用时长 ×(输入TPM单价 × 输入TPM + 输出TPM单价 × 输出TPM)
  • 后付费按小时计费,预付费按天计费。
  • 预付费订单支付后实时生效,22:00后下单则到期日自动顺延1天。
  • 预付费到期后延后2小时停止服务,资源保留14小时后释放,不可提前终止
  • 后付费欠费时,资源保留并继续计费24小时后自动释放。

当输入超过最长Token或超出购买TPM量时,系统将自动切换为按量付费模式,性能可能有所下降。

千问系列

模型名称模型代码最长输入Token后付费输入/10K TPM/小时后付费输出/1K TPM/小时预付费输入/10K TPM/天预付费输出/1K TPM/天
千问3.7-Max-2026-05-20qwen3.7-max-2026-05-20128,000¥28.8¥8.64¥345.6¥103.68
千问3.6-Flash-2026-04-16qwen3.6-flash-2026-04-16128,000¥2.88¥1.73¥34.56¥20.74
千问3.6-Plus-2026-04-02qwen3.6-plus-2026-04-02128,000¥4.8¥2.88¥57.6¥34.56
千问3.5-Plus-2026-04-20qwen3.5-plus-2026-04-20128,000¥1.92¥1.15¥23.04¥13.82
千问3-Max-2025-09-23qwen3-max-2025-09-23128,000¥7.68¥3.08¥92.16¥36.96
千问-Flash-2025-07-28qwen-flash-2025-07-28128,000¥0.36¥0.36¥4.32¥4.32
千问-Plus-2025-12-01qwen-plus-2025-12-01128,000¥1.92非思考¥0.48/思考¥1.92¥23.04非思考¥5.76/思考¥23.04

DeepSeek系列

模型名称模型代码最长输入Token后付费输入/10K TPM/小时后付费输出/1K TPM/小时预付费输入/10K TPM/天预付费输出/1K TPM/天
DeepSeek-v4-Prodeepseek-v4-pro64,000¥43.2¥8.64¥518.4¥103.68
DeepSeek-v3.2deepseek-v3.264,000¥7.2¥1.08¥86.4¥12.96
DeepSeek-v3deepseek-v364,000¥7.2¥2.88¥86.4¥34.56

千问VL系列

模型名称模型代码最长输入Token后付费输入/10K TPM/小时后付费输出/1K TPM/小时预付费输入/10K TPM/天预付费输出/1K TPM/天
千问3-VL-Plus-2025-09-23qwen3-vl-plus-2025-09-23128,000¥2.4¥2.4¥28.8¥28.8

更多模型

模型名称模型代码最长输入Token后付费输入/10K TPM/小时后付费输出/1K TPM/小时预付费输入/10K TPM/天预付费输出/1K TPM/天
GLM-5.1glm-5.164,000¥21.6¥8.64¥259.2¥103.68

2. 模型单元计费

费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价

预付费按月:包月数 × 模型单元数量 × 月单价

首月内提前退订,日单价按1.2倍计费(不满一天按一天计算)。

文本生成——千问

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
千问3.6-35B-A3Bqwen3.6-35b-a3bMU8 x 1¥47¥22,400
MU9 x 1¥51¥24,600
千问3.6-27Bqwen3.6-27bMU9 x 1¥51¥24,600
千问3.6-Flashqwen3.6-flash-2026-04-16MU1 x 2¥108¥52,236
千问3.6-Plusqwen3.6-plus-2026-04-02MU1 x 8 / MU1 x 16(PD分离)¥432 / ¥864¥208,944 / ¥417,888
千问3.5-397B-A17Bqwen3.5-397b-a17bMU2 x 8¥504¥240,288
MU3 x 8 / MU3 x 16(PD分离)¥1,096 / ¥2,192¥527,752 / ¥1,055,504
MU6 x 16¥400¥193,424
千问3.5-122B-A10Bqwen3.5-122b-a10bMU1 x 4¥216¥104,472
MU2 x 8¥504¥240,288
MU6 x 16¥400¥193,424
MU9 x 2¥102¥49,200
千问3.5-35B-A3Bqwen3.5-35b-a3bMU1 x 2¥108¥52,236
MU2 x 8¥504¥240,288
MU8 x 1¥47¥22,400
MU9 x 1¥51¥24,600
千问3.5-27Bqwen3.5-27bMU1 x 2¥108¥52,236
MU9 x 1¥51¥24,600
千问3.5-9Bqwen3.5-9bMU1 x 2¥108¥52,236
MU8 x 1¥47¥22,400
MU9 x 1¥51¥24,600
千问3.5-Flashqwen3.5-flash-2026-02-23MU1 x 2¥108¥52,236
千问3.5-Plusqwen3.5-plus-2026-02-15MU1 x 16(PD分离)PD分离¥864PD分离¥417,888
MU3 x 8 / MU3 x 16(PD分离)¥1,096 / ¥2,192¥527,752 / ¥1,055,504
千问3-235B-A22Bqwen3-235b-a22b-instruct-2507MU1 x 4¥216¥104,472
MU2 x 8¥504¥240,288
千问3-Next-80B-A3Bqwen3-next-80b-a3b-instructMU1 x 2¥108¥52,236
千问3-32Bqwen3-32bMU1 x 4¥216¥104,472
MU6 x 4¥100¥48,356
千问3-30B-A3Bqwen3-30b-a3bMU9 x 2¥102¥49,200
千问3-30B-A3B-Instructqwen3-30b-a3b-instruct-2507MU1 x 4¥216¥104,472
MU2 x 8¥504¥240,288
千问3-8Bqwen3-8bMU1 x 2¥108¥52,236
MU2 x 2¥126¥60,072
MU5 x 1¥21¥10,139
千问3-4Bqwen3-4bMU1 x 2¥108¥52,236
MU5 x 1¥21¥10,139
千问3-1.7Bqwen3-1.7bMU1 x 2¥108¥52,236
MU5 x 1¥21¥10,139
千问3-Embeddingqwen3-embedding-0.6bMU5 x 1¥21¥10,139
MU6 x 1¥25¥12,089
千问3-MoE-Rerankqwen3-moe-rerank-0.6bMU5 x 1¥21¥10,139
千问3-Rerankqwen3-rerank-0.6bMU5 x 1¥21¥10,139
MU6 x 1¥25¥12,089
千问3-Maxqwen3-max-2025-09-23MU2 x 8¥504¥240,288
MU3 x 8¥1,096¥527,752
千问3-Rerankqwen3-rerankMU5 x 1¥21¥10,139
千问2.5-72Bqwen2.5-72b-instructMU1 x 4¥216¥104,472
千问2.5-32Bqwen2.5-32b-instructMU1 x 4¥216¥104,472
千问2.5-14Bqwen2.5-14b-instructMU1 x 2¥108¥52,236
千问2.5-7Bqwen2.5-7b-instructMU1 x 2¥108¥52,236
MU5 x 1¥21¥10,139
千问2.5-3Bqwen2.5-3b-instructMU5 x 1¥21¥10,139
千问-Flashqwen-flash-2025-07-28MU1 x 4¥216¥104,472
千问-Plusqwen-plus-2025-07-28MU1 x 4 / MU1 x 16(PD分离)¥216 / PD分离¥864¥104,472 / PD分离¥417,888
千问-Plusqwen-plus-2025-12-01MU1 x 4¥216¥104,472

GLM系列

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
GLM-5glm-5MU3 x 16(PD分离)PD分离¥2,192PD分离¥1,055,504
GLM-4.7glm-4.7MU6 x 32(PD分离)PD分离¥800PD分离¥386,848

DeepSeek系列

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
DeepSeek-v4-Flashdeepseek-v4-flashMU1 x 8¥432¥208,944
DeepSeek-v3.2deepseek-v3.2MU2 x 16(PD分离)PD分离¥1,008PD分离¥480,576

更多模型

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
MiniMax-M2.5MiniMax-M2.5MU1 x 16(PD分离)PD分离¥864PD分离¥417,888
Kimi-K2.5kimi-k2.5MU2 x 8¥504¥240,288

模型类型说明

  • Instruct — 部署后以非思考模式进行推理。
  • Thinking — 部署后以思考模式进行推理。

PD分离模式说明:将首Token计算(Prefill)与后续Token计算(Decode)分配至不同节点执行,以降低首Token延迟并提升吞吐。

多模态——千问VL

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
千问3-VL-235B-A22B-Instructqwen3-vl-235b-a22b-instructMU1 x 4¥216¥104,472
千问3-VL-235B-A22B-Thinkingqwen3-vl-235b-a22b-thinkingMU1 x 4¥216¥104,472
千问3-VL-32B-Instructqwen3-vl-32b-instructMU2 x 8¥504¥240,288
千问3-VL-8B-Instructqwen3-vl-8b-instructMU1 x 2¥108¥52,236
千问3-VL-4B-Instructqwen3-vl-4b-instructMU1 x 2¥108¥52,236
千问3-VL-2B-Instructqwen3-vl-2b-instructMU5 x 1¥21¥10,139
千问3-VL-Embeddingqwen3-vl-embedding-2bMU5 x 1¥21¥10,139
千问3-VL-Flashqwen3-vl-flash-2025-10-15MU1 x 4¥216¥104,472
千问3-VL-Plusqwen3-vl-plus-2025-09-23MU1 x 4¥216¥104,472
千问VL-Maxqwen-vl-max-2025-08-13MU6 x 4¥100¥48,356
千问VL-OCRqwen-vl-ocr-2025-11-20MU6 x 4¥100¥48,356

千问 Omni

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
千问3.5-Omni-Flashqwen3.5-omni-flashMU8 x 1¥47¥22,400
MU9 x 1¥51¥24,600
千问3.5-Omni-Plusqwen3.5-omni-plusMU9 x 8¥408¥196,800

语音合成——CosyVoice

模型名称模型代码模型单元规格小时单价(元)包月单价(元)
cosyvoice-v3-flashcosyvoice-v3-flashMU5¥21¥10,139

3. Token用量计费

费用 = 输入Token数 × 输入单价 + 输出Token数 × 输出单价(最小计费单位:1 token)

仅当对基础模型完成SFT高效训练并获得自定义模型后,方可采用此计费方式。

千问

基础模型模型代码输入(元/千Token)输出(元/千Token)
千问3-32Bqwen3-32b¥0.002非思考¥0.008 / 思考¥0.02
千问3-14Bqwen3-14b¥0.001非思考¥0.004 / 思考¥0.01
千问3-8Bqwen3-8b¥0.0005非思考¥0.002 / 思考¥0.005
千问2.5-72Bqwen2.5-72b-instruct¥0.004¥0.012
千问2.5-32Bqwen2.5-32b-instruct¥0.002¥0.006
千问2.5-14Bqwen2.5-14b-instruct¥0.001¥0.003
千问2.5-7Bqwen2.5-7b-instruct¥0.0005¥0.001

千问VL

基础模型模型代码输入(元/千Token)输出(元/千Token)
千问3-VL-8B-Instructqwen3-vl-8b-instruct¥0.0005¥0.002
千问2.5-VL-72Bqwen2.5-vl-72b-instruct¥0.016¥0.048
千问2.5-VL-32Bqwen2.5-vl-32b-instruct¥0.008¥0.024
千问2.5-VL-7Bqwen2.5-vl-7b-instruct¥0.002¥0.005

三、部署方法

操作步骤如下

  1. 前往模型部署控制台(北京)
  2. 选择模型及计费方式,其余设置保持默认,设置模型名称后开始部署。

须先完成模型调优,方可部署大部分模型。

  1. 部署状态显示为运行中,即表示部署成功。

模型部署成功后将开始产生费用。

3.1 部署配置说明

配置项说明
推理模式部分模型支持配置:Instruct(非思考)/ Thinking(思考)
最长上下文部分模型支持,长度依据模型类型确定
服务限流部分模型支持,可限制RPM、TPM

四、部署后调用

模型部署成功后,支持通过 OpenAI兼容接口DashScope 及 Assistant SDK 进行调用。

调用时,model 参数应填写部署成功后的模型 code,该信息可在控制台获取。

模型特性(如是否支持非流式输出、结构化输出等)与调优前保持一致。若调优数据包含深度思考内容,调用时建议开启 enable_thinking;若不包含,则不建议开启。

DashScope 调用示例

import os
import dashscope

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "你是谁?"},
]
response = dashscope.Generation.call(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    model="qwen3-14b-xxx-xxx",  # 替换为部署后的code
    messages=messages,
    result_format="message",
    enable_thinking=False,
)
print(response)

OpenAI 兼容接口调用示例

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-14b-xxx-xxx",  # 替换为部署后的code
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是谁?"},
    ],
    extra_body={"enable_thinking": False},
)
print(completion)

五、扩缩容方式

计费方式扩缩容操作
预置吞吐(按时长)点击扩缩容按钮,自助调节实例数量
模型单元(按时长)点击扩缩容按钮,自助调节实例数量
Token用量点击扩容按钮,提交申请表单,等待人工审核

六、部署服务下线

前往模型部署控制台(北京) → 找到需下线的服务 → 点击下线并确认。

下线后不再产生计费。

七、常见问题

Q1:是否支持上传和部署自有模型?

支持在我的模型控制台(北京)导入部分开源模型。
此外,阿里云人工智能平台 PAI 提供了部署自有模型的功能。

Q2:部署时提示权限不足应如何处理?

情形一:缺少模块权限

请确认账号在该业务空间的权限管理页面已具备「模型部署-操作」权限。

情形二:业务空间无部署权限

报错示例:Workspace xxx does not have deployment privilege for model xxxx

请前往百炼业务空间管理页面,为对应空间添加模型部署权限。

若仍无法解决,请联系组织管理员或IT管理员处理。

Q3:如何切换计费方式?

须先释放原有资源,再以新计费方式创建。建议按以下步骤操作:

  1. 以新计费方式部署新资源。
  2. 切换API并测试可用性。
  3. 下线并释放原有资源。

2026年阿里云AI产品与云产品优惠权益参考
AI 产品权益主要包括阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;HappyHorse-1.0 系列模型 限时 8 折;阿里云百炼 Token Plan,提供多档位套餐,包月预算可控;Qwen3.6全模型通享 4.5 折;Qwen3.7-Max 发布 限时 5 折;阿里云百炼优惠券,先用后返,最高200元,个企同享;阿里云 JVS Claw 39元起,一键接入 OpenClaw等。而云产品权益主要有轻量应用服务器限时抢购2核2G38元/年、2核4G9.9元1个月、199元/年;通用算力型u2i实例3折,九代c9i、g9i、r9i等实例1年付6.4折起等优惠权益。详情可通过阿里云权益中心了解:https://www.aliyun.com/benefit

小结:阿里云百炼大模型服务平台为用户提供了预置吞吐(PTU)、模型单元、Token用量三种灵活的部署计费方式,覆盖从高并发生产场景到调优验证的多元需求,并支持OpenAI兼容接口、DashScope及Assistant SDK等多种调用方式,配套完善的扩缩容与下线机制,降低了大模型落地的技术门槛。

本文原创链接:https://www.tengxunyun8.com/19575.html
版权所有,如未注明,均为原创,转载请注明