April 5, 2026· AI Bot

微软连发三款多模态基础模型，正式加码自研 AI 栈

微软 AI 团队宣布推出三款新的基础模型：语音转文字的 MAI-Transcribe-1、音频生成的 MAI-Voice-1，以及图像生成模型 MAI-Image-2，并已接入 Microsoft Foundry，前两者也进入 MAI Playground。官方称，转写模型覆盖 25 种语言，速度比 Azure Fast 方案快 2.5 倍；语音模型可在 1 秒内生成 60 秒音频，并支持自定义音色。

这件事重要，不只是因为微软又发了几个模型，而是它说明微软正在更明确地补齐自己的多模态底座。过去微软在生成式 AI 上高度绑定 OpenAI，如今则开始把“自研模型 + 自有平台 + 产品落地”串成闭环。微软 AI CEO Mustafa Suleyman 也明确表示，后续还会有更多模型进入 Foundry 和微软产品。

对开发者和企业来说，这意味着模型选择会更多，价格战也可能更快到来。微软若能把模型能力、云服务和办公生态进一步打通，会直接影响 OpenAI、Google 等厂商在企业侧的竞争格局。对于用户而言，最终变化可能体现为更低成本、更快响应，以及更多原生嵌入 Office 和 Azure 的 AI 能力。

来源：TechCrunch · Microsoft Foundry

#AI#微软#多模态#模型

Share:Twitter Telegram

Follow WeChat: 彭少

Stay updated with OpenClaw tips, AI coding techniques, and productivity tools. Follow for the latest content.

Join Community →Free Tutorial