Fora

Bater papo

desativar

Imagem 3

O Imagen 3 do Google gera imagens realistas a partir de texto; resultados mais seguros são obtidos com a Vertex AI.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'A jellyfish in the ocean',
      model: 'imagen-3.0-generate-002',
    }),
  }).then((res) => res.json());

  response['data'].forEach((image, i) => {
    const buffer = Buffer.from(image['url'], 'base64');
    fs.writeFileSync(path.join(__dirname, `image_${i + 1}.png`), buffer);
});
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "A jellyfish in the ocean",
            "model": "imagen-3.0-generate-002",
        },
    )

    response.raise_for_status()
    data = response.json()

    for i, image in enumerate(data["data"]):
        with open(f"image_{i+1}.png", "wb") as f:
            f.write(base64.b64decode(image["url"]))


if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Imagem 3

Detalhes do produto

✨ Introdução à Imagem 3

Imagem 3 é o modelo de IA de ponta do Google para conversão de texto em imagem, revolucionando a forma como criamos imagens fotorrealistas a partir de simples descrições em texto. Lançado em Julho de 2024Esta versão aprimora as anteriores oferecendo detalhes incomparáveis, iluminação excepcional e uma redução impressionante de artefatos visuais. Ela estabelece um novo padrão para o entendimento de linguagem natural e introduz uma renderização de texto significativamente melhorada em imagens, abrindo um mundo de possibilidades criativas.

"O Imagen 3 é o mais recente modelo de IA de texto para imagem do Google, projetado para gerar imagens fotorrealistas de alta qualidade a partir de descrições de texto, com detalhes e iluminação aprimorados e menos artefatos."
— Citado de Descrição da Imagem Original 3

🔑 Principais recursos do Imagen 3

✨ Geração de imagens de alta qualidade: Cria imagens realistas com detalhes excepcionais, iluminação mais rica e artefatos visuais mínimos.
💡 Compreensão aprimorada da linguagem natural: Melhoria significativa na capacidade de interpretar instruções complexas, reduzindo a necessidade de engenharia de instruções elaborada.
✍️ Melhor renderização de texto: Oferece renderização de texto superior em imagens geradas, expandindo as aplicações criativas.
🧠 Consciência contextual e coerência: Emprega um mecanismo sofisticado de composição de cenas para garantir a coerência lógica nas imagens geradas.
🔍 Maior resolução e realismo: Gera imagens de altíssima definição que são praticamente indistinguíveis de fotografias reais.

🎯 Casos de uso pretendidos

O Imagen 3 é ideal para gerar imagens realistas a partir de descrições de texto em diversas aplicações, incluindo: projetos de marketing, publicidade, design e criaçãoÉ ideal para empresas que necessitam de recursos visuais personalizados e para desenvolvedores que criam aplicativos que exigem recursos de geração de imagens de alta qualidade.

⚙️ Detalhes técnicos

Arquitetura: Utiliza uma abordagem de aprendizado profundo, combinando um modelo de linguagem (como o T5 do Google) com uma rede generativa adversarial (GAN) ou um modelo de difusão.
Dados de treinamento: Treinado em conjuntos de dados massivos de pares texto-imagem, com legendas enriquecidas para capturar nuances mais sutis.
Diversidade e Viés: Incorpora filtragem e rotulagem de dados extensivas para minimizar conteúdo prejudicial no conjunto de dados de treinamento, garantindo a geração de IA responsável.

📈 Métricas de desempenho

Qualidade visual: Obtém as pontuações mais altas em qualidade visual, produzindo imagens atraentes e praticamente sem artefatos.
Precisão imediata: Demonstra alta precisão ao responder a perguntas complexas.

📊 Comparação com outros modelos

A avaliação humana no GenAI-Bench demonstra consistentemente o desempenho superior do Imagen 3 em benchmarks de preferência geral em comparação com outros modelos líderes.

Pontuações Elo do GenAI-Bench para Imagen 3 versus outros modelos. — Avaliação humana no GenAI-Bench: pontuações Elo no benchmark de preferência geral para Imagen 3 versus outros modelos.

Percentagens de sucesso do GenAI-Bench para o Imagen 3 em comparação com outros modelos. — Avaliação humana no GenAI-Bench: percentagens de taxa de sucesso para a preferência geral do Imagen 3 em comparação com outros modelos.

🚀 Primeiros passos com o Imagen 3

Exemplos de código:

Integre o Imagen 3 em seus aplicativos usando os trechos de código fornecidos. As imagens geradas serão salvas diretamente em seu computador.

Parâmetros para geração de imagens:

num_imagens [int]: Especifica o número de imagens a serem geradas.
semente [int]: Define a semente aleatória para a geração de imagens reproduzíveis.
enhance_prompt [booleano]: Parâmetro opcional para utilizar um recurso de reescrita de prompts baseado em LLM para imagens de maior qualidade que se alinhem melhor com a intenção original do prompt. Desativar este parâmetro pode afetar a qualidade da imagem e a aderência ao prompt.
converter_base64_para_url [booleano]: Se verdadeiro, o URL da imagem será retornado; caso contrário, o arquivo de imagem será fornecido no formato base64.
proporção_de_aspecto [1:1, 9:16, 16:9, 3:4, 4:3]: Define a proporção da imagem gerada.
geração_de_pessoas [não_permitir, permitir_adultos]: Controla a geração de pessoas pelo modelo.
configuração_de_segurança [bloqueio_baixo_e_acima, bloqueio_médio_e_acima, bloqueio_somente_alto]: Adiciona um nível de filtro aos mecanismos de segurança.

Formato de resposta esperado:

Após a geração bem-sucedida, você receberá uma resposta JSON semelhante a esta:

{  "dados" : [ { "tipo_mime" : "image/png" , "url" : "base64image / url" , "prompt" : "prompt aprimorado" } ] }

O modelo está facilmente disponível em Plataforma de API de IA/ML sob o nome "Imagem 3".

Documentação completa da API:

Detalhado Documentação da API Está disponível para desenvolvedores que buscam informações detalhadas.

🛡️ Diretrizes Éticas e IA Responsável

Segurança em primeiro lugar: Desenvolvido com foco primordial em segurança e responsabilidade, seguindo rigorosamente os Princípios de IA do Google.
Marca d'água digital (SynthID): Inclui o SynthID para identificar claramente o conteúdo gerado por IA, promovendo a transparência.
Prevenção de conteúdo prejudicial: Utiliza filtros de segurança avançados para prevenir rigorosamente a geração de conteúdo prejudicial.
Governança de dados: Utiliza políticas robustas de governança de dados, garantindo que os dados do cliente nunca sejam usados para fins de treinamento.

📄 Licenciamento e Utilização

Ao usar o Imagen 3, é crucial seguir as diretrizes de IA responsável e de uso do Google. Para cenários específicos, como a geração de imagens com pessoas, aprovações adicionais do Google podem ser necessárias. Se o seu projeto envolver a criação de tais imagens, certifique-se de seguir os processos de aprovação necessários.

Acesse a API do Imagen 3 e comece sua jornada criativa. aqui.

❓ Perguntas frequentes (FAQ)

Q1: O que é a Imagem 3?

A1: O Imagen 3 é o modelo de IA de conversão de texto em imagem mais recente do Google, lançado em julho de 2024, projetado para gerar imagens fotorrealistas de alta qualidade a partir de descrições de texto, com detalhes, iluminação e compreensão de linguagem natural aprimorados.
Q2: Como o Imagen 3 aprimora as versões anteriores?

A2: Oferece qualidade de imagem superior, iluminação mais rica, menos artefatos visuais, melhor compreensão de instruções complexas, renderização de texto aprimorada em imagens e geração de resolução mais alta.
P3: Posso usar o Imagen 3 para projetos comerciais?

A3: Sim, o Imagen 3 destina-se a diversas aplicações, incluindo marketing, publicidade e design. No entanto, usos específicos, como a geração de imagens de pessoas, podem exigir aprovações adicionais do Google.
Q4: Quais medidas estão em vigor para o uso ético da IA?

A4: O Imagen 3 incorpora marca d'água digital (SynthID), utiliza filtros de segurança para evitar conteúdo prejudicial e segue políticas robustas de governança de dados, alinhando-se aos Princípios de IA do Google.
Q5: Onde posso acessar a API do Imagen 3?

A5: A API Imagen 3 está disponível em Plataforma de API de IA/MLVocê pode encontrar documentação detalhada da API. aqui.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos