From c5831daa55d3d6f5c4673d2ced1154852a9fcde1 Mon Sep 17 00:00:00 2001
From: hp0912 <809211365@qq.com>
Date: Fri, 8 May 2026 21:14:03 +0800
Subject: [PATCH] =?UTF-8?q?feat:=20=E7=94=BB=E5=9B=BE/=E4=BF=AE=E5=9B=BE?=
 =?UTF-8?q?=E6=94=AF=E6=8C=81=E5=8D=B3=E6=A2=A6=204.7=EF=BC=8C=E4=BC=98?=
 =?UTF-8?q?=E5=8C=96=E8=AF=AD=E9=9F=B3=20skill?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 skills/image-to-image/SKILL.md                |  3 +-
 .../image-to-image/scripts/image_to_image.py  |  2 +-
 skills/text-to-image/SKILL.md                 |  3 +-
 skills/text-to-image/scripts/text_to_image.py |  2 +-
 skills/voice-message/SKILL.md                 | 64 +++++++++++++++++++
 5 files changed, 70 insertions(+), 4 deletions(-)

diff --git a/skills/image-to-image/SKILL.md b/skills/image-to-image/SKILL.md
index 3787c50..7417a17 100644
--- a/skills/image-to-image/SKILL.md
+++ b/skills/image-to-image/SKILL.md
@@ -37,11 +37,12 @@ argument-hint: "需要 prompt（提示词）和 images（图片链接列表）
     },
     "model": {
       "type": "string",
-      "description": "画图模型选择（可选）：即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦5.0(jimeng-5.0) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2)，默认: 空(none)。",
+      "description": "画图模型选择（可选）：即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦4.7(jimeng-4.7) / 即梦5.0(jimeng-5.0) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2)，默认: 空(none)。",
       "enum": [
         "none",
         "jimeng-4.5",
         "jimeng-4.6",
+        "jimeng-4.7",
         "jimeng-5.0",
         "doubao-seededit-3.0-i2i",
         "Z-Image",
diff --git a/skills/image-to-image/scripts/image_to_image.py b/skills/image-to-image/scripts/image_to_image.py
index 188314c..ebb76c8 100644
--- a/skills/image-to-image/scripts/image_to_image.py
+++ b/skills/image-to-image/scripts/image_to_image.py
@@ -591,7 +591,7 @@ def call_openai(config: dict, prompt: str, model: str, images: list[str],
 # Main
 # ---------------------------------------------------------------------------
 
-JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-5.0"}
+JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-4.7", "jimeng-5.0"}
 DOUBAO_MODELS = {"doubao-seededit-3.0-i2i"}
 ZIMAGE_MODELS = {"Z-Image", "Z-Image-Turbo", "Qwen-Image-Edit-2511"}
 OPENAI_MODELS = {"gpt-image-2"}
diff --git a/skills/text-to-image/SKILL.md b/skills/text-to-image/SKILL.md
index cf543a0..5b0dce9 100644
--- a/skills/text-to-image/SKILL.md
+++ b/skills/text-to-image/SKILL.md
@@ -35,11 +35,12 @@ argument-hint: "需要 prompt 参数（画图提示词），可选 model（模
     },
     "model": {
       "type": "string",
-      "description": "画图模型选择（可选）：即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦5.0(jimeng-5.0) / 豆包4.5(doubao-seedream-4.5) / 豆包4.0(doubao-seedream-4.0) / 豆包文生图(doubao-seedream-3.0-t2i) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2)，默认: 空(none)。",
+      "description": "画图模型选择（可选）：即梦4.5(jimeng-4.5) / 即梦4.6(jimeng-4.6) / 即梦4.7(jimeng-4.7) / 即梦5.0(jimeng-5.0) / 豆包4.5(doubao-seedream-4.5) / 豆包4.0(doubao-seedream-4.0) / 豆包文生图(doubao-seedream-3.0-t2i) / 豆包图生图(doubao-seededit-3.0-i2i) / 造相基础版(Z-Image) / 造相蒸馏版(Z-Image-Turbo) / 造相图片编辑(Qwen-Image-Edit-2511) / OpenAI GPT Image(gpt-image-2)，默认: 空(none)。",
       "enum": [
         "none",
         "jimeng-4.5",
         "jimeng-4.6",
+        "jimeng-4.7",
         "jimeng-5.0",
         "doubao-seedream-4.5",
         "doubao-seedream-4.0",
diff --git a/skills/text-to-image/scripts/text_to_image.py b/skills/text-to-image/scripts/text_to_image.py
index 0291fdc..c798ec8 100644
--- a/skills/text-to-image/scripts/text_to_image.py
+++ b/skills/text-to-image/scripts/text_to_image.py
@@ -560,7 +560,7 @@ def call_openai(config: dict, prompt: str, model: str,
 # Main
 # ---------------------------------------------------------------------------
 
-JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-5.0"}
+JIMENG_MODELS = {"jimeng-4.5", "jimeng-4.6", "jimeng-4.7", "jimeng-5.0"}
 DOUBAO_MODELS = {"doubao-seedream-4.5", "doubao-seedream-4.0", "doubao-seedream-3.0-t2i", "doubao-seededit-3.0-i2i"}
 ZIMAGE_MODELS = {"Z-Image", "Z-Image-Turbo", "Qwen-Image-Edit-2511"}
 OPENAI_MODELS = {"gpt-image-2"}
diff --git a/skills/voice-message/SKILL.md b/skills/voice-message/SKILL.md
index 160e038..2f62bf5 100644
--- a/skills/voice-message/SKILL.md
+++ b/skills/voice-message/SKILL.md
@@ -111,6 +111,70 @@ argument-hint: "需要 content；可选 emotion、voice、style_prompt、voice_p
 9. 不要传递音色复刻音频参数。若当前消息引用了一条语音消息，脚本会通过 `ROBOT_REF_MESSAGE_ID` 自动判断并下载引用语音作为复刻样本。
 10. `content` 超过 260 个字符时，不应该调用本技能。
 
+## 音频标签控制
+
+通过在文本中嵌入风格标签与音频标签，直接对语音进行精细控制。开头是整体风格标签，中间可以插入细粒度控制标签。
+
+在目标文本开头添加 `(风格)` 标签，即可指定语音的发音风格。支持同时设置多种风格，将多个风格名称置于同一对括号内，分隔符不限。
+
+支持的括号格式： 可使用半角 `()`、全角 `（）` 或 `[]`。
+
+### 格式示例
+
+```
+风格类型	风格示例
+基础情绪	开心/悲伤/愤怒/恐惧/惊讶/兴奋/委屈/平静/冷漠
+复合情绪	怅然/欣慰/无奈/愧疚/释然/嫉妒/厌倦/忐忑/动情
+整体语调	温柔/高冷/活泼/严肃/慵懒/俏皮/深沉/干练/凌厉
+音色定位	磁性/醇厚/清亮/空灵/稚嫩/苍老/甜美/沙哑/醇雅
+人设腔调	夹子音/御姐音/正太音/大叔音/台湾腔
+方言	   东北话/四川话/河南话/粤语
+角色扮演	孙悟空/林黛玉
+唱歌	   唱歌
+```
+
+样例:
+
+- (怅然)这么多年过去了，再走过那条街，心里一下子空了一块。
+
+- (慵懒)再让我睡五分钟……就五分钟，真的，最后一次。
+
+- (磁性)夜已经深了，城市还在呼吸。我是今晚陪你的人，欢迎收听《午夜电台》。
+
+- (东北话)哎呀妈呀，这天儿也忒冷了吧！你说这风，嗖嗖的，跟刀子似的，割脸啊！
+
+- (粤语)呢个真係好正啊！食过一次就唔会忘记！
+
+- (唱歌)原谅我这一生不羁放纵爱自由，也会怕有一天会跌倒，Oh no。背弃了理想，谁人都可以，哪会怕有一天只你共我。
+
+在此基础上，我们还支持在文本中任意位置插入 [音频标签]。通过 [音频标签] ，你可以对声音进行细粒度控制，精准调节语气、情绪和表达风格——无论是低声耳语、放声大笑，还是带点小情绪的小吐槽，也可以灵活插入呼吸声，停顿，咳嗽等，都能轻松实现。语速同样可以灵活调整，让每句话都有它该有的节奏。
+
+```
+风格类型	风格示例
+语速与节奏	吸气/深呼吸/叹气/长叹一口气/喘息/屏息
+情绪状态	  紧张/害怕/激动/疲惫/委屈/撒娇/心虚/震惊/不耐烦
+语音特征	  颤抖/声音颤抖/变调/破音/鼻音/气声/沙哑
+哭笑表达	  笑/轻笑/大笑/冷笑/抽泣/呜咽/哽咽/嚎啕大哭
+```
+
+样例:
+
+- （紧张，深呼吸）呼……冷静，冷静。不就是一个面试吗……（语速加快，碎碎念）自我介绍已经背了五十遍了，应该没问题的。加油，你可以的……（小声）哎呀，领带歪没歪？
+
+- （极其疲惫，有气无力）师傅……到地方了叫我一声……（长叹一口气）我先眯一会儿，这班加得我魂儿都要散了。
+
+- 如果我当时……（沉默片刻）哪怕再坚持一秒钟，结果是不是就不一样了？（苦笑）呵，没如果了。
+
+- （寒冷导致的急促呼吸）呼——呼——这、这大兴安岭的雪……（咳嗽）简直能把人骨头冻透了……别、别停下，走，快走。
+
+- （提高音量喊话）大姐！这鱼新鲜着呢！早上刚捞上来的！哎！那个谁，别乱翻，压坏了你赔啊？！
+
+### 特别注意
+
+- 只有`mimo-v2.5-tts`模型支持唱歌模式
+
+- 如需体验更佳的唱歌风格，必须在目标文本最开头添加 `(唱歌)` 标签，格式为：`(唱歌)歌词`。歌词 建议采用中文，可获得更优合成效果。标签内标识支持以下取值，效果等效：`唱歌`、`sing`、`singing`
+
 ## 执行步骤
 
 1. 识别用户是否明确需要语音消息。