提供商与模型指南

配置 ASR 和 LLM 提供商。

目录

本指南说明如何在 闻字 中配置 ASR(语音识别)模型和 AI 增强服务商。涵盖 GUI(设置面板)和配置文件两种方式。

ASR 模型选择

闻字 支持五种 ASR 后端:

后端 最适用场景 GPU 离线
Apple Speech(默认) 多语言,无需下载 CPU/Neural Engine 设备端或服务器端
FunASR Paraformer 中文语音 CPU (ONNX) 是(首次下载后)
Sherpa-ONNX 流式识别,轻量中文模型 CPU (ONNX) 是(首次下载后)
MLX-Whisper 多语言,Apple Silicon GPU (MLX) 是(首次下载后)
Whisper API(远程) 云端,任意硬件 不适用 否(需要 API)

通过 GUI 配置 ASR

打开 Settings...STT 标签页。所有可用的本地和远程 ASR 模型以单选按钮形式列出。选择其中一个即可切换——当前激活的模型会高亮显示。

如果所选的 MLX-Whisper 模型尚未下载,闻字 会在首次使用时自动下载(菜单栏图标显示 DL X% 下载进度)。已配置服务商的远程 ASR 模型也会显示在此标签页中。

通过配置文件配置 ASR

编辑 ~/.config/WenZi/config.json

{
  "asr": {
    "backend": "mlx-whisper",
    "preset": "mlx-whisper-small",
    "model": null,
    "language": "zh",
    "temperature": 0.0
  }
}

关键字段:

字段 说明
backend "apple""funasr""sherpa-onnx""mlx-whisper""whisper-api"
preset 下表中的预设 ID(推荐的模型选择方式)
model 直接指定模型路径(例如自定义 HuggingFace 模型 ID),会覆盖 preset
language 语言代码("zh""en""ja" 等)。MLX-Whisper 和 Apple Speech 使用此字段。FunASR 和 Sherpa-ONNX 忽略此字段(语言由模型决定)
temperature MLX-Whisper 的解码温度。0.0 = 贪心解码

编辑后需重启 闻字 使更改生效。

可用 ASR 模型

预设 ID 后端 模型 大小
apple-speech-ondevice apple Apple Speech(设备端) 内置
apple-speech-server apple Apple Speech(服务器端) 内置
funasr-paraformer funasr Paraformer-large(中文) ~400 MB
sherpa-zipformer-zh sherpa-onnx Zipformer Chinese 14M ~28 MB
sherpa-paraformer-zh sherpa-onnx Paraformer 双语(中英) ~220 MB
mlx-whisper-medium mlx-whisper mlx-community/whisper-medium ~1.5 GB
mlx-whisper-large-v3-turbo mlx-whisper mlx-community/whisper-large-v3-turbo ~1.6 GB

注意: MLX-Whisper 的 tiny/base/small 模型没有预设,但可以通过直接设置 asr.model 来使用(例如 "model": "mlx-community/whisper-small")。Sherpa-ONNX 模型会在首次使用时自动从 HuggingFace 下载。


远程 ASR 服务商

除本地 ASR 后端外,闻字 还支持通过 OpenAI 兼容的音频转录 API(例如 Groq、OpenAI)进行远程 ASR。远程服务商的配置与 LLM 服务商分开管理。

通过 GUI 配置远程 ASR

  1. 打开 Settings...STT 标签页 → Add Provider...

  2. 填写服务商详情(对话框格式与 LLM 服务商相同):

name: groq
base_url: https://api.groq.com/openai/v1
api_key: gsk-xxx
models:
  whisper-large-v3
  1. 点击 Verify — 闻字 会发送一段短暂的静音音频片段来测试连接。

  2. 验证通过后,点击 Save。新模型将出现在 STT 标签页中。

通过配置文件配置远程 ASR

编辑 ~/.config/WenZi/config.json,在 asr 下添加条目:

{
  "asr": {
    "default_provider": "groq",
    "default_model": "whisper-large-v3",
    "providers": {
      "groq": {
        "base_url": "https://api.groq.com/openai/v1",
        "api_key": "gsk-xxx",
        "models": ["whisper-large-v3"]
      }
    }
  }
}

设置 default_providerdefault_model 后,闻字 启动时将使用远程 ASR 模型。将两者都设为 null 可切换回本地后端。

远程 ASR 示例

Groq

"groq": {
  "base_url": "https://api.groq.com/openai/v1",
  "api_key": "gsk-xxx",
  "models": ["whisper-large-v3"]
}

OpenAI

"openai": {
  "base_url": "https://api.openai.com/v1",
  "api_key": "sk-xxx",
  "models": ["whisper-1"]
}

AI (LLM) 服务商配置

AI 增强功能使用 OpenAI 兼容的 LLM 服务商。您可以配置多个服务商,并随时在它们之间切换。

通过 GUI 配置服务商

  1. 打开 Settings...LLM 标签页 → Add Provider...

  2. 弹出带有模板的文本编辑对话框:

name: my-provider
base_url: https://api.openai.com/v1
api_key: sk-xxx
models:
  gpt-4o
  gpt-4o-mini
extra_body: {"chat_template_kwargs": {"enable_thinking": false}}
  1. 填写您的服务商信息: - name:唯一标识符(例如 openaideepseeklocal-llama) - base_url:OpenAI 兼容的 API 端点 - api_key:您的 API 密钥 - models:列出可用模型,在 models: 下每行一个 - extra_body(可选):随每个请求一起发送的额外 JSON 参数

  2. 点击 Verify — 闻字 会使用列表中的第一个模型测试连接。

  3. 验证通过后,点击 Save 添加服务商。

通过配置文件配置服务商

编辑 ~/.config/WenZi/config.json,在 ai_enhance.providers 下添加条目:

{
  "ai_enhance": {
    "default_provider": "openai",
    "default_model": "gpt-4o",
    "providers": {
      "openai": {
        "base_url": "https://api.openai.com/v1",
        "api_key": "sk-your-key-here",
        "models": ["gpt-4o", "gpt-4o-mini"]
      }
    }
  }
}

每个服务商条目需要以下字段:

字段 必填 说明
base_url OpenAI 兼容的 API 端点 URL
api_key 认证密钥
models 该服务商可用的模型名称数组
extra_body 包含额外请求参数的 JSON 对象

编辑后需重启 闻字 使更改生效。

服务商示例

Ollama(本地)

"ollama": {
  "base_url": "http://localhost:11434/v1",
  "api_key": "ollama",
  "models": ["qwen2.5:7b", "llama3.1:8b"]
}

OpenAI

"openai": {
  "base_url": "https://api.openai.com/v1",
  "api_key": "sk-xxx",
  "models": ["gpt-4o", "gpt-4o-mini"]
}

DeepSeek

"deepseek": {
  "base_url": "https://api.deepseek.com/v1",
  "api_key": "sk-xxx",
  "models": ["deepseek-chat", "deepseek-reasoner"]
}

OpenRouter

"openrouter": {
  "base_url": "https://openrouter.ai/api/v1",
  "api_key": "sk-or-xxx",
  "models": ["anthropic/claude-sonnet-4", "google/gemini-2.5-flash"]
}

Qwen(支持扩展思考)

"qwen": {
  "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",
  "api_key": "sk-xxx",
  "models": ["qwen3-235b-a22b", "qwen3-32b"],
  "extra_body": {"chat_template_kwargs": {"enable_thinking": false}}
}

关于 extra_body 的说明: 部分服务商需要额外参数。例如,Qwen 模型需要 enable_thinking 来控制思考模式。此字段会与标准 OpenAI 字段一起直接传递在请求体中。


切换服务商与模型

通过 GUI 切换

切换 LLM 服务商/模型: 打开 Settings...LLM 标签页 → 从可用模型列表中选择。

所有已配置服务商的模型以单选按钮形式显示,当前激活的模型会高亮。

切换 STT 模型: 打开 Settings...STT 标签页 → 选择一个(本地或远程)。

切换思考模式: 打开 Settings...AI 标签页 → Thinking 复选框。

您也可以直接在预览面板的下拉菜单中切换 STT 和 LLM 模型,无需打开设置面板。

通过配置文件切换

更新 config.json 中的 default_providerdefault_model

{
  "ai_enhance": {
    "default_provider": "deepseek",
    "default_model": "deepseek-chat",
    "thinking": false
  }
}

重要: default_model 必须是所选服务商 models 数组中列出的模型之一。


移除服务商

LLM 服务商

通过 GUI: 打开 Settings...LLM 标签页 → Remove... → 选择要移除的服务商 → 在对话框中确认。

通过配置文件:config.jsonai_enhance.providers 中删除该服务商条目。如果它是当前激活的服务商,需将 default_providerdefault_model 更新为其他可用服务商。

ASR 服务商

通过 GUI: 打开 Settings...STT 标签页 → Remove... → 选择要移除的服务商 → 在对话框中确认。

通过配置文件:config.jsonasr.providers 中删除该服务商条目。如果它是当前激活的服务商,需将 asr.default_providerasr.default_model 设为 null

无法移除当前激活的服务商。请先切换到其他服务商/模型。


快速开始示例

使用 OpenAI 增强的最简配置:

{
  "ai_enhance": {
    "enabled": true,
    "mode": "proofread",
    "default_provider": "openai",
    "default_model": "gpt-4o-mini",
    "providers": {
      "openai": {
        "base_url": "https://api.openai.com/v1",
        "api_key": "sk-your-key-here",
        "models": ["gpt-4o", "gpt-4o-mini"]
      }
    }
  }
}

或使用本地 Ollama(无需 API 密钥):

{
  "ai_enhance": {
    "enabled": true,
    "mode": "proofread",
    "default_provider": "ollama",
    "default_model": "qwen2.5:7b",
    "providers": {
      "ollama": {
        "base_url": "http://localhost:11434/v1",
        "api_key": "ollama",
        "models": ["qwen2.5:7b"]
      }
    }
  }
}

然后在 Settings...AI 标签页中选择增强模式(例如"纠错润色")即可激活。

← Prompt 优化工作流

系统化地提升 AI 增强质量。

会话历史增强 →

话题连续性与实体解析。