Google开源Gemma 4 12B:无编码器统一架构,16GB笔记本可本地跑音视频

Google 于 6 月 3 日正式发布开源模型 Gemma 4 12B,采用统一架构(Unified Architecture),支持原始音频波形和视觉补丁直接流入大模型主干网络,无需独立的音频或视觉编码器,显著降低了内存占用和推理延迟。
该模型的核心突破在于无编码器设计。视觉处理由仅 3500 万参数的轻量模块完成,通过单次矩阵乘法即可将图像信息嵌入模型,而音频编码器被完全消除。这使得 Gemma 4 12B 只需 16GB 显存或统一内存,即可在标准企业笔记本上完全本地运行,无需联网或云端推理。
Gemma 4 12B 支持三种模态输入:音频方面,可直接处理最长 30 秒的原始音频波形;视频方面,支持每秒一帧的处理速率、最长 60 秒的视频理解;文本方面,拥有 256K token 的上下文窗口,足以处理长篇财务报告、完整代码库或长达一小时的会议转录。
推理能力方面,Gemma 4 12B 具备原生思考模式(Thinking Mode),可在输出前进行逐步推理。同时原生支持函数调用和系统提示,开箱即可构建自主软件代理。Google 还同步发布了 Gemma Skills Repository,为该模型的代理开发提供专门技能库。
基准测试成绩接近 Google 更大的 26B MoE 模型,表明其在参数量减半的情况下仍能提供接近旗舰级别的性能。模型以 Apache 2.0 许可证开放权重,可自由下载、修改和商用。
开发者可通过 Hugging Face(google/gemma-4-12B-it)、Kaggle 和 Google AI Edge Gallery 获取模型权重,同时兼容 vLLM、SGLang、MLX、llama.cpp 等行业标准部署框架。Google Cloud 用户还可通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 或 Google Kubernetes Engine 快速启动。
Gemma 4 12B 的发布标志着小型开源模型在本地多模态推理方向迈出关键一步,将此前仅限大参数模型的多模态能力压缩至消费级硬件可运行的范围。
当前文章标题:Google开源Gemma 4 12B:无编码器统一架构,16GB笔记本可本地跑音视频
当前文章地址:https://www.2109.top/3858/
来源:2109博客 地址:https://2109.top 文章版权归作者所有,未经允许请勿转载。
转载及其他合作需求请微信联系博主