跳转到主要内容
POST
/
api
/
v1
/
generate
/
add-vocals
添加人声
curl --request POST \
  --url https://api.api.box/api/v1/generate/add-vocals \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '{
  "prompt": "带有舒缓人声的平静放松钢琴曲",
  "title": "带人声的轻松钢琴",
  "negativeTags": "重金属, 激进人声",
  "style": "爵士",
  "vocalGender": "m",
  "styleWeight": 0.61,
  "weirdnessConstraint": 0.72,
  "audioWeight": 0.65,
  "uploadUrl": "https://example.com/instrumental.mp3",
  "callBackUrl": "https://api.example.com/callback",
  "model": "V4_5PLUS"
}'
{
  "code": 200,
  "msg": "success",
  "data": {
    "taskId": "5c79****be8e"
  }
}

使用指南

  • 此接口通过添加人声元素来增强器乐曲目
  • 接受上传的音频文件,并根据您的规格生成人声
  • 上传的音频必须可公开访问且采用支持的格式(MP3、WAV等)

参数详情

  • 必需字段uploadUrlcallBackUrlprompttitlenegativeTagsstyle
  • callBackUrl:必须是有效的、可公开访问的音频文件URL
  • style:描述整体流派和人声方法(爵士、古典、电子、流行)
  • negativeTags:要从生成中排除的音乐风格或人声特征
  • title:用作生成的人声曲目的标题

可选参数

以下字段是此接口可用的可选控制:
  • vocalGender (string):首选人声性别。允许的值:m(男性)、f(女性)
  • styleWeight (number):范围0-1的风格权重(建议两位小数)
  • weirdnessConstraint (number):范围0-1的创意/新颖性约束(建议两位小数)
  • audioWeight (number):范围0-1的音频一致性相对权重(建议两位小数)
  • model (string):用于生成的模型版本。可选值:V4_5PLUS(默认)、V5

开发者注意事项

  • 回调过程有三个阶段:text(文本生成)、first(第一轨道完成)、complete(所有轨道完成)
  • 在某些情况下,textfirst阶段可能被跳过,直接返回complete
  • 详细回调格式请参见添加人声回调
  • 使用获取音乐生成详情监控任务进度

Authorizations

Authorization
string
header
required

🔑 API 认证说明

所有接口都需要通过 Bearer Token 方式进行认证。

获取 API Key

  1. 访问 API Key 管理页面 获取您的 API Key

使用方式

在请求头中添加:

Authorization: Bearer YOUR_API_KEY

⚠️ 注意:

  • 请妥善保管您的 API Key,不要泄露给他人
  • 如果怀疑 API Key 泄露,请立即在管理页面重置

Body

application/json
prompt
string
required

为其生成人声的音频内容描述。必填。提供所需人声风格和内容的上下文。

Example:

"带有舒缓人声的平静放松钢琴曲"

title
string
required

音乐曲目的标题。必填。这将作为生成的人声曲目的标题。

Example:

"带人声的轻松钢琴"

negativeTags
string
required

要从生成的曲目中排除的音乐风格或人声特征。必填。用于避免特定的人声风格或特征。

Example:

"重金属, 激进人声"

style
string
required

音乐和人声风格。必填。例如:爵士、古典、电子、流行。描述整体流派和人声方法。

Example:

"爵士"

uploadUrl
string<uri>
required

要添加人声的上传音频文件的URL。必须是系统可以访问的有效音频文件URL。上传的音频应该采用支持的格式(MP3、WAV等)。

Example:

"https://example.com/instrumental.mp3"

callBackUrl
string<uri>
required

当人声生成完成时接收任务完成通知的URL。回调过程分为三个阶段:text、first、complete。在某些情况下,text和first阶段可能被跳过,直接返回complete。

Example:

"https://api.example.com/callback"

vocalGender
enum<string>

首选人声性别。可选。允许的值:m(男性)、f(女性)。

Available options:
m,
f
Example:

"m"

styleWeight
number

风格权重。可选。范围:0-1。建议保留两位小数。

Required range: 0 <= x <= 1Must be a multiple of 0.01
Example:

0.61

weirdnessConstraint
number

创意/新颖性约束。可选。范围:0-1。建议保留两位小数。

Required range: 0 <= x <= 1Must be a multiple of 0.01
Example:

0.72

audioWeight
number

音频一致性与其他控制的相对权重。可选。范围:0-1。建议保留两位小数。

Required range: 0 <= x <= 1Must be a multiple of 0.01
Example:

0.65

model
enum<string>
default:V4_5PLUS

用于生成的模型版本。可选。默认值:V4_5PLUS。

Available options:
V4_5PLUS,
V5
Example:

"V4_5PLUS"

Response

请求成功

code
enum<integer>

状态码说明

  • ✅ 200 - 请求成功
  • ⚠️ 400 - 参数错误
  • ⚠️ 401 - 没有访问权限
  • ⚠️ 404 - 请求方式或者路径错误
  • ⚠️ 405 - 调用超过限制
  • ⚠️ 413 - 主题或者prompt过长
  • ⚠️ 429 - 积分不足
  • ⚠️ 430 - 您的调用频率过高。请稍后再试。
  • ⚠️ 455 - 网站维护
  • ❌ 500 - 服务器异常
Available options:
200,
400,
401,
404,
405,
413,
429,
430,
455,
500
Example:

200

msg
string

当 code != 200 时,展示错误信息

Example:

"success"

data
object
I