Qwen35还有高手全模态大模型来了实测很强

日期：2026-04-11 浏览：　

　　兄弟们，Qwen3.5 系列我写过十几篇了，涉及简介、测评、本地部署、微调等等

Qwen35还有高手全模态大模型来了实测很强(图1)

　　Qwen3.5-Omni 是 Qwen3-Omni 的全面进化版，真正把“看、听、说、想”放进同一套开源底座里的模型，在海量文本、视觉，以及超过1 亿小时的音视频数据上进行原生多模态预训练，支持文本、图片、音频、音视频全模态理解与生成。

　　根据官方披露的数据，Qwen3.5-Omni-Plus 在通用音频理解、推理、识别、翻译、对话星空体育官方入口星空体育官网能力上全面超越了 Gemini 3.1 Pro，在多语言语音识别/生成上也显著优于 Gemini 3.1 Pro，215 项音频/音视频子任务达到 SOTA 成绩。

Qwen35还有高手全模态大模型来了实测很强(图2)

　　输入音频让其转录成字幕，实测有些错别字，这点是任何模型都不可避免的，比如这个老张/老章。

　　1. 保留所有对话内容，不要遗漏或概括\n2. 标注不同说话人（如说话人A、说线. 保留口语化表达、语气词\n4. 如果有明显的话题转换，用空行分隔)结果如下，整整 14 万字，如果加上一些提示词会更好，比如人名：3、联网搜索+工具调用+可变音色音频输出

Qwen35还有高手全模态大模型来了实测很强(图3)

　　但是，我更加感兴趣的是它的原生联网搜索支持与工具调用能力，加上输出音频的音色支持，完全可以复刻出一个大模型支持的智能音箱了（Qwen 3.5-Omni 有实时版本，也支持联网搜索），事实上，我正在做这个，把我那台要退休的 M1 Macmini 改造成支持语音唤醒的智能音响，大家静待佳音。

Qwen35还有高手全模态大模型来了实测很强(图4)

　　传统语音助手有个经典问题：你还没说完，它就抢话了；或者背景有点噪音，它以为你在叫它。Qwen3.5-Omni 支持

　　，自动识别turn-talking意图，模型可以精准判断什么时候该接话，什么只是用户无意识的附和、停顿或背景声音。

　　意外发现，它自带 OCR 能力也相当可以，比如我常需要的 latex 公式识别

Qwen35还有高手全模态大模型来了实测很强(图5)

Qwen35还有高手全模态大模型来了实测很强(图6)

　　然后它的 OCR 能力不输专业 OCR 大模型，比如我这张测试专用图片

　　：API 调用，离线 API 和实时 API 分别适合批量处理和流式交互场景

　　总结Qwen3.5-Omni 给我的整体感觉是，野心很大，完成度也不低。它真正有意思的地方，在于把文本、图像、音频、视频、实时语音回复放进了同一个统一框架里，把多模态从能看图推进到了能听音频、看视频、还能直接说话，解决统一底座问题，工程上更省拼装成本。大模型世界很缺图像理解+音视频理解 + 语音输出一体化底座，很多团队只能自己拼ASR、VLM、TTS、Agent；人机交互也正在从键盘窗口走向摄像头、麦克风、耳机、车机、眼镜，一个统一模型把交互层、理解层、生成层接起来，产品形态会快很多。

　　一旦跑顺，能做的事情太多了：私有化会议助手、本地视频问答、播客整理、素材打标、语音Agent、OCR + 多模态知识库……这类能力对播客摘要、音频检索、会议记录增强都有直接价值，很多人现在都盯着视频理解和实时助手，我反而觉得 audio caption这条线后面很可能会跑出不少特别实用的场景。

　　我判断，未来一两年 Omni 模型会成为很多设备助手和企业助手的默认底座，路线也很明确，后面会继续往低延迟、更轻量推进。真正爆发的场景大概率在车载、教育、客服、内容生产、个人知识管理这几类持续听、持续看、持续说的产品里。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　深圳一男子误吞150片药，混着白酒！凌晨被发现瘫在床上！医生：常规洗胃没用，得“拆毒”

　　突发！知名巨头CEO在美国旧金山的住宅，凌晨被投燃烧弹，他发文回应！此次事件发生时，该公司与五角大楼签的协议正遭到强烈批评

　　华为Pura X Max设计图！阔折形态+麒麟9030，你的钱包顶得住吗

　　荣耀Magic9 Pro Max突然曝光，双2亿+LOFIC回归，影像直接拉满！

星空体育·(StarSky Sports)官方网站-星空官方认证

Qwen35还有高手全模态大模型来了实测很强