在

出去

聊天

禁用

Gemma 3n 4B

Gemma 3n 模型可在手机等低资源设备上高效运行，通过选择性参数激活来降低资源需求，有效参数规模为 20 亿或 40 亿。

新会员可获赠价值 1 美元的免费Tokens

Text to Speech

Javascript

Python

                                        const { OpenAI } = require('openai');

const api = new OpenAI({
  baseURL: 'https://api.ai.cc/v1',
  apiKey: '',
});

const main = async () => {
  const result = await api.chat.completions.create({
    model: 'google/gemma-3n-e4b-it',
    messages: [
      {
        role: 'user',
        content: 'Tell me, why is the sky blue?'
      }
    ],
  });

  const message = result.choices[0].message.content;
  console.log(`Assistant: ${message}`);
};

main();

                                        import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.ai.cc/v1",
    api_key="",    
)

response = client.chat.completions.create(
    model="google/gemma-3n-e4b-it",
    messages=[
        {
            "role": "user",
            "content": "Tell me, why is the sky blue?"
        },
    ],
)

message = response.choices[0].message.content

print(f"Assistant: {message}")

Docs

300 多个适用于 OpenClaw 和 AI 代理的 AI 模型

节省20%费用并获赠价值1美元的Tokens

获取 API 密钥探索模型

Gemma 3n 4B

产品详情

Gemma 3n 4B 是Google创新的、移动优先的多模态人工智能模型。它专为高效的设备端部署而设计，可将企业级人工智能功能直接带到智能手机和平板电脑上。通过利用其尖端技术 MatFormer架构 和 PLE缓存Gemma 3n 4B 性能强劲，资源消耗却极低。

⚙️ 技术规格

性能基准

Gemma 3n 4B 针对移动部署进行了精心优化，具备先进的多模态处理能力：

上下文窗口： 8KTokens
产量： 每次响应最多可获得 2000 个令牌
内存占用： 动态运行内存保持在 2GB-3GB，考虑到其 5B-8B 的参数数量，这令人印象深刻。
处理速度： 速度提升1.5倍 在移动设备上，它比其前代产品 Gemma 3 4B 更出色。

API定价

自由的

🚀 绩效指标

根据竞争激烈的聊天机器人竞技场 Elo 评分，Gemma 3n 表现出色，得分为 1283这使其位列第二，紧随 Claude 3.7 Sonnet (1287) 之后，成绩斐然。考虑到 Gemma 3n 仅需在内存中存储 40 亿个参数即可实现如此高的性能，这一成就尤其值得关注。

💡 主要功能

Gemma 3n 4B 的设计旨在提供高效的多模态 AI 处理，尤其是在资源有限的环境中：

MatFormer架构： 采用选择性参数激活，显著降低计算成本并提高响应速度。
PLE缓存（逐层嵌入）： 通过将参数策略性地卸载到快速存储设备来优化内存使用。
条件参数加载： 仅动态加载必要的参数（文本、图像或音频），进一步提高内存优化。
多语言支持： 接受过超过 140种语言从而实现灵活多样的全球部署。
隐私优先设计： 完全离线运行，无需互联网连接即可确保更高的数据隐私和安全。

🎯 最佳使用场景

移动应用： 即使在内存有限的情况下，也能为智能手机和平板电脑提供高级人工智能功能。
边缘计算： 支持在物联网设备和嵌入式系统上直接进行实时人工智能处理。
离线人工智能解决方案： 非常适合注重隐私且需要强大本地处理能力的应用。

💻 代码示例

探索将 Gemma 3n 4B 集成到您的开发项目中的实用代码示例：

⚖️ 与其他型号的比较

对阵 Gemma 3 4B： 交付 处理速度提升 50%此外，还具有卓越的输出质量和更小的内存占用。
与标准 5B-8B 型号相比： 运行内存占用量仅为 2B-4B（2-3GB RAM），远低于同类产品通常需要的 6-16GB 内存。
对阵 Qwen 3 4B： 在分类任务和结构化 JSON 提取方面表现出优异的性能，但在编码和 RAG 应用中结果可能会有所不同。

🚫 限制

Gemma 3n 4B 虽然功能强大，但也存在一些局限性：

不具备集成视觉功能。
缺乏微调功能。
主要限于基于文本的任务。

🔗 API 集成

Gemma 3n 4B 可通过 AI/ML API 完全访问。如需完整文档和集成指南，请点击此处：此处可查看。

❓ 常见问题解答 (FAQ)

1. Gemma 3n 4B 的主要用途是什么？

Gemma 3n 4B 被设计成一个移动优先的多模态 AI 模型，经过优化，能够以高效率和最小资源消耗将企业级 AI 功能带到智能手机和平板电脑上。

2. Gemma 3n 4B 如何实现高效率和低内存占用？

它利用创新的 MatFormer 架构进行选择性参数激活，利用逐层嵌入 (PLE) 缓存卸载参数，以及利用条件参数加载动态加载必要的组件，所有这些都有助于提高其效率。

3. Gemma 3n 4B 可以在没有互联网连接的情况下运行吗？

是的，Gemma 3n 4B 采用隐私优先设计，支持完全离线运行。这使其成为对隐私要求较高的应用以及互联网连接可能受限的边缘计算场景的理想选择。

4. Gemma 3n 4B 的主要局限性是什么？

它的主要局限性包括缺乏视觉功能、不支持用户进行微调，以及其操作主要局限于基于文本的任务。

5. Gemma 3n 4B 与其前身 Gemma 3 4B 相比如何？

Gemma 3n 4B 的性能显著优于其前代产品 Gemma 3 4B，处理速度提高了 50%，同时保持了卓越的输出质量并减少了内存需求。

API 操练场（Playground）

集成前，请在沙盒环境中测试所有 API 模型。我们提供 300 多个模型供您集成到应用中。

免费试用

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用