掌握 Gemma 3n

设备端多模态AI的终极指南。释放Google最高效开源模型的力量,
处理音频、视觉和文本。

79.8%
MMLU准确率
4GB
E4B内存
13x
视觉处理

什么是 Gemma 3n?

Gemma 3n是Google最新一代生成式AI模型系列,专为在手机、笔记本电脑和平板电脑等日常设备上实现峰值性能和效率而设计。它不仅处理文本,还是一个真正的多模态平台。

🎯

多模态设计

原生处理音频、视觉和文本输入,以全面的方式理解和分析世界。

📱

设备端优化

提供高效的E2B和E4B尺寸,运行时的内存占用与更小的模型相当。

MatFormer架构

新颖的"嵌套"transformer架构,允许灵活的计算和内存使用,适应手头的任务。

🛠️

开发者友好

支持您已经喜爱的各种工具,包括Hugging Face、Keras、PyTorch和Ollama。

性能基准测试

Gemma 3n 与竞争对手相比如何?以下是基准测试结果。

数据来源于官方Google AI出版物和独立基准测试。

🧠

MMLU

大规模多任务语言理解

79.8%
得分

Gemma 3n E4B

在这一关键知识和推理基准测试中超越了同类领先模型。

💬

LMArena评分

人类偏好聊天机器人基准测试

1315
87.7% 的最大观察值

Gemma 3n E4B

首个突破1300分界线的10B参数以下模型,展现了强大的对话能力。

视觉编码器速度

设备端性能(Pixel Edge TPU)

13x
更快

MobileNet-V5 vs SoViT

视觉处理速度大幅提升,同时具有更高的准确性和更小的内存占用。

Gemma 3n vs 竞争对手

模型 参数 MMLU GSM8K HumanEval 内存(GB)
Gemma 3n E4B 4.0B 79.8% 68.6% 40.2% 8
Gemma 3n E2B 2.0B 71.3% 51.8% 32.1% 4
Llama 3.1 8B 8.0B 66.7% 84.5% 72.6% 16
Llama 3.2 3B 3.0B 63.4% 77.7% N/A 6

性能优越 低于Gemma 3n E4B 内存需求适用于全精度模型。

🏆

效率冠军

Gemma 3n E4B 仅用4B参数就实现了79.8%的MMLU,在仅使用一半内存的情况下超越了Llama 3.1 8B(66.7%)。

📱

移动优先设计

MatFormer架构支持动态缩放,使同一模型能够从智能手机到工作站高效运行。

MatFormer架构

Gemma 3n引入了创新的MatFormer架构,实现高效的多模态处理。

🏗️

MatFormer设计

创新的嵌套Transformer架构,根据任务复杂度自适应调整计算。

高效处理

针对设备端推理优化,内存占用极小。

Input Layer
Audio • Vision • Text
MatFormer Layers
Nested Transformers
Output Layer
Unified Multimodal Response

应用场景与灵感

您可以用 Gemma 3n 构建什么?可能性无穷无尽。

🎤

设备端个人助手

构建隐私优先的语音助手,可以理解语音、文本和图像。

📸

智能照片管理

自动标记、描述和搜索照片,为您的图像创建智能元数据。

🎵

实时音频转录

创建可以转录会议、讲座和对话的应用程序,无需互联网连接。

📚

互动教育工具

开发引人入胜的学习应用,学生可以"看到"和评论用户的绘图或图表。

常见问题

有问题?我们有答案。以下是开发者关于Gemma 3n最常问的问题。

PWA已就绪