首次调用 API
AI Hub 提供兼容 OpenAI 风格的 Chat Completions API,只需几步即可完成首次调用。
1. 获取 API Key
登录 AI Hub 控制台,进入「Token 管理」页面创建您的 API Token。 创建成功后请妥善保存,Token 仅显示一次。
2. Base URL
所有 API 请求的基础地址:
URL
http://www.wzhlink.cn:9090
3. 认证鉴权
所有 API 请求需在 HTTP Header 中携带 Authorization 字段,
值为 Bearer {您的Token}。
HTTP
Authorization: Bearer sk-YOUR_TOKEN_HERE
4. 发起首次请求
Chat Completions 是核心对话接口,请求体为 JSON 格式,
Content-Type 需设为 application/json。
cURL
bash
curl -X POST "http://www.wzhlink.cn:9090/v1/chat/completions" \
-H "Authorization: Bearer sk-YOUR_TOKEN_HERE" \
-H "Content-Type: application/json" \
-d '{"model": "gpt-4o", "messages": [{"role": "user", "content": "Hello!"}]}'
Python
python
import requests
url = "http://www.wzhlink.cn:9090/v1/chat/completions"
headers = {
"Authorization": "Bearer sk-YOUR_TOKEN_HERE",
"Content-Type": "application/json"
}
data = {
"model": "gpt-4o",
"messages": [{"role": "user", "content": "Hello!"}]
}
response = requests.post(url, json=data, headers=headers)
print(response.json())
JavaScript
javascript
const response = await fetch(
"http://www.wzhlink.cn:9090/v1/chat/completions",
{
method: "POST",
headers: {
"Authorization": "Bearer sk-YOUR_TOKEN_HERE",
"Content-Type": "application/json"
},
body: JSON.stringify({
model: "gpt-4o",
messages: [{ role: "user", content: "Hello!" }]
})
}
);
const data = await response.json();
console.log(data);
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
model |
string | 是 | 模型名称,如 gpt-4o、claude-3.5-sonnet |
messages |
array | 是 | 消息列表,每项含 role(system/user/assistant)和 content |
temperature |
number | 否 | 采样温度,范围 0-2,默认 1 |
max_tokens |
number | 否 | 最大输出 token 数 |
stream |
boolean | 否 | 是否流式输出,默认 false |
top_p |
number | 否 | 核采样参数,范围 0-1,默认 1 |
响应格式
成功响应 (200)
JSON
{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1717000000,
"model": "gpt-4o",
"choices": [{
"index": 0,
"message": {
"role": "assistant",
"content": "Hello! How can I help you today?"
},
"finish_reason": "stop"
}],
"usage": {
"prompt_tokens": 10,
"completion_tokens": 9,
"total_tokens": 19
}
}
错误响应
JSON
{
"code": 401,
"message": "Authentication failed: token expired"
}
💡 提示:将
sk-YOUR_TOKEN_HERE 替换为您的实际 Token(可在控制台「Token 管理」中创建)。
所有 API 返回的 usage 字段中包含本次调用的 token 消耗详情。
API 端点总览
| 方法 | 路径 | 说明 |
|---|---|---|
| POST | /v1/chat/completions |
Chat Completions 接口(OpenAI 兼容),支持流式 SSE |
| POST | /v1/messages |
Messages 接口(Anthropic Claude 兼容),支持流式 SSE |
| POST | /v1/images/generations |
图片生成接口(DALL-E 等) |
| POST | /v1/audio/transcriptions |
语音转文字接口(Whisper 等) |
| POST | /v1/audio/speech |
文字转语音接口(TTS 等) |
模型 & 价格
以下为平台当前支持的模型及其定价信息。价格单位:人民币(¥)/ 百万 tokens。
| 模型 | 类型 | 输入价格 | 输出价格 | 缓存命中 | 上下文窗口 |
|---|---|---|---|---|---|
| gpt-4o | 对话 | ¥17.50 /1M tokens | ¥70.00 /1M tokens | ¥8.75 /1M tokens | 128K |
| gpt-4o-mini | 对话 | ¥1.05 /1M tokens | ¥4.20 /1M tokens | ¥0.525 /1M tokens | 128K |
| claude-3.5-sonnet | 对话 | ¥21.00 /1M tokens | ¥105.00 /1M tokens | ¥10.50 /1M tokens | 200K |
| claude-3.5-haiku | 对话 | ¥5.60 /1M tokens | ¥28.00 /1M tokens | ¥2.80 /1M tokens | 200K |
| deepseek-v4-flash | 对话 | ¥1.00 /1M tokens | ¥2.00 /1M tokens | ¥0.10 /1M tokens | 128K |
| deepseek-v4-pro | 对话 | ¥3.00 /1M tokens | ¥6.00 /1M tokens | ¥0.25 /1M tokens | 128K |
| gemini-2.0-flash | 对话 | ¥0.70 /1M tokens | ¥2.80 /1M tokens | ¥0.175 /1M tokens | 1M |
| qwen-plus | 对话 | ¥3.50 /1M tokens | ¥7.00 /1M tokens | ¥— | 128K |
| text-embedding-3-small | 嵌入 | ¥0.14 /1M tokens | ¥— | ¥— | 8K |
📌 计费说明
实际扣费 = 消耗 Token 数 × 对应单价,按实际用量实时结算。
若命中上下文缓存,已缓存部分按「缓存命中」价格计算,可大幅降低重复请求成本。
以上为典型模型参考价格,实际价格以控制台「公共大模型」页面展示为准。
实际扣费 = 消耗 Token 数 × 对应单价,按实际用量实时结算。
若命中上下文缓存,已缓存部分按「缓存命中」价格计算,可大幅降低重复请求成本。
以上为典型模型参考价格,实际价格以控制台「公共大模型」页面展示为准。
Token 用量计算
了解 Token 如何计算,帮助您预估 API 调用成本。
什么是 Token
Token 是大语言模型处理文本的最小单位。模型将输入的文本拆分为若干 token 后再进行处理, 输出的文本也同样以 token 为单位生成。一个 token 可能是:
- 一个完整的英文单词(如
hello) - 一个中文汉字(如
你) - 一个标点符号(如
.、?) - 一个单词的一部分(如前缀
un、后缀ing)
字符与 Token 的换算
不同语言的字符与 token 的换算比例大致如下:
| 语言 | 单位 | 约等于 |
|---|---|---|
| 中文 | 1 个汉字 | ≈ 0.6 token |
| 英文 | 1 个字符 | ≈ 0.3 token |
| 代码 | 1 个字符 | ≈ 0.25 token |
📐 示例:
一段 100 个汉字的文本 ≈ 60 tokens;一段 200 个英文字符的文本 ≈ 60 tokens。
实际 token 数以 API 返回的
usage 字段为准。
API 返回的 usage 字段
每次 API 调用成功后,响应体中会包含 usage 字段,用于查看本次调用的 token 消耗:
JSON
"usage": {
"prompt_tokens": 120,
"completion_tokens": 85,
"total_tokens": 205,
"prompt_cache_hit_tokens": 50,
"prompt_cache_miss_tokens": 70
}
| 字段 | 说明 |
|---|---|
prompt_tokens |
输入(提示词)消耗的 token 数 |
completion_tokens |
输出(模型生成)消耗的 token 数 |
total_tokens |
本次调用消耗的总 token 数 |
prompt_cache_hit_tokens |
命中上下文缓存的输入 token 数(按缓存命中价计费) |
prompt_cache_miss_tokens |
未命中缓存的输入 token 数(按标准输入价计费) |
费用计算公式
公式
费用 = 缓存命中tokens × 缓存命中单价
+ 缓存未命中tokens × 输入单价
+ 输出tokens × 输出单价
💰 费用实时结算:每次 API 调用完成后,费用实时从账户余额中扣除。
您可以在控制台「消费记录」页面查看每次调用的明细扣费。