From c5831daa55d3d6f5c4673d2ced1154852a9fcde1 Mon Sep 17 00:00:00 2001 From: hp0912 <809211365@qq.com> Date: Fri, 8 May 2026 21:14:03 +0800 Subject: [PATCH] =?UTF-8?q?feat:=20=E7=94=BB=E5=9B=BE/=E4=BF=AE=E5=9B=BE?= =?UTF-8?q?=E6=94=AF=E6=8C=81=E5=8D=B3=E6=A2=A6=204.7=EF=BC=8C=E4=BC=98?= =?UTF-8?q?=E5=8C=96=E8=AF=AD=E9=9F=B3=20skill?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- skills/image-to-image/SKILL.md | 3 +- .../image-to-image/scripts/image_to_image.py | 2 +- skills/text-to-image/SKILL.md | 3 +- skills/text-to-image/scripts/text_to_image.py | 2 +- skills/voice-message/SKILL.md | 64 +++++++++++++++++++ 5 files changed, 70 insertions(+), 4 deletions(-) diff --git a/skills/image-to-image/SKILL.md b/skills/image-to-image/SKILL.md index 3787c50..7417a17 100644 --- a/skills/image-to-image/SKILL.md +++ b/skills/image-to-image/SKILL.md @@ -37,11 +37,12 @@ argument-hint: "需要 prompt(提示词)和 images(图片链接列表) }, "model": { "type": "string", - "description": "画图模型选择(可选):即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦5.0(jimeng-5.0) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2),默认: 空(none)。", + "description": "画图模型选择(可选):即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦4.7(jimeng-4.7) / 即梦5.0(jimeng-5.0) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2),默认: 空(none)。", "enum": [ "none", "jimeng-4.5", "jimeng-4.6", + "jimeng-4.7", "jimeng-5.0", "doubao-seededit-3.0-i2i", "Z-Image", diff --git a/skills/image-to-image/scripts/image_to_image.py b/skills/image-to-image/scripts/image_to_image.py index 188314c..ebb76c8 100644 --- a/skills/image-to-image/scripts/image_to_image.py +++ b/skills/image-to-image/scripts/image_to_image.py @@ -591,7 +591,7 @@ def call_openai(config: dict, prompt: str, model: str, images: list[str], # Main # --------------------------------------------------------------------------- -JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-5.0"} +JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-4.7", "jimeng-5.0"} DOUBAO_MODELS = {"doubao-seededit-3.0-i2i"} ZIMAGE_MODELS = {"Z-Image", "Z-Image-Turbo", "Qwen-Image-Edit-2511"} OPENAI_MODELS = {"gpt-image-2"} diff --git a/skills/text-to-image/SKILL.md b/skills/text-to-image/SKILL.md index cf543a0..5b0dce9 100644 --- a/skills/text-to-image/SKILL.md +++ b/skills/text-to-image/SKILL.md @@ -35,11 +35,12 @@ argument-hint: "需要 prompt 参数(画图提示词),可选 model(模 }, "model": { "type": "string", - "description": "画图模型选择(可选):即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦5.0(jimeng-5.0) / 豆包4.5(doubao-seedream-4.5) / 豆包4.0(doubao-seedream-4.0) / 豆包文生图(doubao-seedream-3.0-t2i) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2),默认: 空(none)。", + "description": "画图模型选择(可选):即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦4.7(jimeng-4.7) / 即梦5.0(jimeng-5.0) / 豆包4.5(doubao-seedream-4.5) / 豆包4.0(doubao-seedream-4.0) / 豆包文生图(doubao-seedream-3.0-t2i) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2),默认: 空(none)。", "enum": [ "none", "jimeng-4.5", "jimeng-4.6", + "jimeng-4.7", "jimeng-5.0", "doubao-seedream-4.5", "doubao-seedream-4.0", diff --git a/skills/text-to-image/scripts/text_to_image.py b/skills/text-to-image/scripts/text_to_image.py index 0291fdc..c798ec8 100644 --- a/skills/text-to-image/scripts/text_to_image.py +++ b/skills/text-to-image/scripts/text_to_image.py @@ -560,7 +560,7 @@ def call_openai(config: dict, prompt: str, model: str, # Main # --------------------------------------------------------------------------- -JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-5.0"} +JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-4.7", "jimeng-5.0"} DOUBAO_MODELS = {"doubao-seedream-4.5", "doubao-seedream-4.0", "doubao-seedream-3.0-t2i", "doubao-seededit-3.0-i2i"} ZIMAGE_MODELS = {"Z-Image", "Z-Image-Turbo", "Qwen-Image-Edit-2511"} OPENAI_MODELS = {"gpt-image-2"} diff --git a/skills/voice-message/SKILL.md b/skills/voice-message/SKILL.md index 160e038..2f62bf5 100644 --- a/skills/voice-message/SKILL.md +++ b/skills/voice-message/SKILL.md @@ -111,6 +111,70 @@ argument-hint: "需要 content;可选 emotion、voice、style_prompt、voice_p 9. 不要传递音色复刻音频参数。若当前消息引用了一条语音消息,脚本会通过 `ROBOT_REF_MESSAGE_ID` 自动判断并下载引用语音作为复刻样本。 10. `content` 超过 260 个字符时,不应该调用本技能。 +## 音频标签控制 + +通过在文本中嵌入风格标签与音频标签,直接对语音进行精细控制。开头是整体风格标签,中间可以插入细粒度控制标签。 + +在目标文本开头添加 `(风格)` 标签,即可指定语音的发音风格。支持同时设置多种风格,将多个风格名称置于同一对括号内,分隔符不限。 + +支持的括号格式: 可使用半角 `()`、全角 `()` 或 `[]`。 + +### 格式示例 + +``` +风格类型 风格示例 +基础情绪 开心/悲伤/愤怒/恐惧/惊讶/兴奋/委屈/平静/冷漠 +复合情绪 怅然/欣慰/无奈/愧疚/释然/嫉妒/厌倦/忐忑/动情 +整体语调 温柔/高冷/活泼/严肃/慵懒/俏皮/深沉/干练/凌厉 +音色定位 磁性/醇厚/清亮/空灵/稚嫩/苍老/甜美/沙哑/醇雅 +人设腔调 夹子音/御姐音/正太音/大叔音/台湾腔 +方言 东北话/四川话/河南话/粤语 +角色扮演 孙悟空/林黛玉 +唱歌 唱歌 +``` + +样例: + +- (怅然)这么多年过去了,再走过那条街,心里一下子空了一块。 + +- (慵懒)再让我睡五分钟……就五分钟,真的,最后一次。 + +- (磁性)夜已经深了,城市还在呼吸。我是今晚陪你的人,欢迎收听《午夜电台》。 + +- (东北话)哎呀妈呀,这天儿也忒冷了吧!你说这风,嗖嗖的,跟刀子似的,割脸啊! + +- (粤语)呢个真係好正啊!食过一次就唔会忘记! + +- (唱歌)原谅我这一生不羁放纵爱自由,也会怕有一天会跌倒,Oh no。背弃了理想,谁人都可以,哪会怕有一天只你共我。 + +在此基础上,我们还支持在文本中任意位置插入 [音频标签]。通过 [音频标签] ,你可以对声音进行细粒度控制,精准调节语气、情绪和表达风格——无论是低声耳语、放声大笑,还是带点小情绪的小吐槽,也可以灵活插入呼吸声,停顿,咳嗽等,都能轻松实现。语速同样可以灵活调整,让每句话都有它该有的节奏。 + +``` +风格类型 风格示例 +语速与节奏 吸气/深呼吸/叹气/长叹一口气/喘息/屏息 +情绪状态 紧张/害怕/激动/疲惫/委屈/撒娇/心虚/震惊/不耐烦 +语音特征 颤抖/声音颤抖/变调/破音/鼻音/气声/沙哑 +哭笑表达 笑/轻笑/大笑/冷笑/抽泣/呜咽/哽咽/嚎啕大哭 +``` + +样例: + +- (紧张,深呼吸)呼……冷静,冷静。不就是一个面试吗……(语速加快,碎碎念)自我介绍已经背了五十遍了,应该没问题的。加油,你可以的……(小声)哎呀,领带歪没歪? + +- (极其疲惫,有气无力)师傅……到地方了叫我一声……(长叹一口气)我先眯一会儿,这班加得我魂儿都要散了。 + +- 如果我当时……(沉默片刻)哪怕再坚持一秒钟,结果是不是就不一样了?(苦笑)呵,没如果了。 + +- (寒冷导致的急促呼吸)呼——呼——这、这大兴安岭的雪……(咳嗽)简直能把人骨头冻透了……别、别停下,走,快走。 + +- (提高音量喊话)大姐!这鱼新鲜着呢!早上刚捞上来的!哎!那个谁,别乱翻,压坏了你赔啊?! + +### 特别注意 + +- 只有`mimo-v2.5-tts`模型支持唱歌模式 + +- 如需体验更佳的唱歌风格,必须在目标文本最开头添加 `(唱歌)` 标签,格式为:`(唱歌)歌词`。歌词 建议采用中文,可获得更优合成效果。标签内标识支持以下取值,效果等效:`唱歌`、`sing`、`singing` + ## 执行步骤 1. 识别用户是否明确需要语音消息。