Afuera

Charlar

desactivar

Imagen 3

Imagen 3 de Google genera imágenes realistas a partir de texto; resultados más seguros mediante Vertex AI.

Fichas de $1 gratis para nuevos miembros

Text to Speech

Javascript

Python

                                        const fs = require('fs');
const path = require('path');

const main = async () => {
  const response = await fetch('https://api.ai.cc/v1/images/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      prompt: 'A jellyfish in the ocean',
      model: 'imagen-3.0-generate-002',
    }),
  }).then((res) => res.json());

  response['data'].forEach((image, i) => {
    const buffer = Buffer.from(image['url'], 'base64');
    fs.writeFileSync(path.join(__dirname, `image_${i + 1}.png`), buffer);
});
};

main();

                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "prompt": "A jellyfish in the ocean",
            "model": "imagen-3.0-generate-002",
        },
    )

    response.raise_for_status()
    data = response.json()

    for i, image in enumerate(data["data"]):
        with open(f"image_{i+1}.png", "wb") as f:
            f.write(base64.b64decode(image["url"]))


if __name__ == "__main__":
    main()

Docs

Más de 300 modelos de IA para OpenClaw y agentes de IA

Ahorra un 20% en costes y obtén fichas gratis de 1 $.

Obtén la clave API Explorar modelos

Imagen 3

Detalles del producto

✨ Introduction to Imagen 3

Imagen 3 es el modelo de IA de Google para convertir texto en imagen, que está revolucionando la forma en que creamos imágenes fotorrealistas a partir de simples descripciones de texto. Lanzado en Julio de 2024Esta versión se basa en sus predecesoras, ofreciendo un nivel de detalle y una iluminación sin precedentes, además de una asombrosa reducción de artefactos visuales. Establece un nuevo estándar para la comprensión del lenguaje natural e introduce una representación de texto significativamente mejorada dentro de las imágenes, abriendo un mundo de posibilidades creativas.

"Imagen 3 es el último modelo de IA de Google para convertir texto en imagen, diseñado para generar imágenes fotorrealistas de alta calidad a partir de descripciones de texto, con mayor detalle, mejor iluminación y menos artefactos."
— Citado de Imagen original 3 Descripción

🔑 Características principales de Imagen 3

✨ Generación de imágenes de alta calidad: Crea imágenes realistas con un nivel de detalle excepcional, una iluminación más rica y mínimos artefactos visuales.
💡 Comprensión mejorada del lenguaje natural: Mejora significativa de la capacidad para interpretar indicaciones complejas, lo que reduce la necesidad de una ingeniería de indicaciones elaborada.
✍️ Mejor representación del texto: Ofrece una representación de texto superior dentro de las imágenes generadas, ampliando así las aplicaciones creativas.
🧠 Conciencia contextual y coherencia: Emplea un sofisticado mecanismo de composición de escenas para garantizar la coherencia lógica en las imágenes generadas.
🔍 Mayor resolución y realismo: Genera imágenes de ultra alta definición que son prácticamente indistinguibles de las fotografías reales.

🎯 Casos de uso previstos

Imagen 3 es ideal para generar imágenes realistas a partir de descripciones de texto en diversas aplicaciones, incluidas: Marketing, publicidad, diseño y proyectos creativosEs ideal para empresas que requieren elementos visuales personalizados y para desarrolladores que crean aplicaciones que exigen capacidades de generación de imágenes de alta calidad.

⚙️ Detalles técnicos

Arquitectura: Utiliza un enfoque de aprendizaje profundo, combinando un modelo de lenguaje (como el T5 de Google) con una red generativa antagónica (GAN) o un modelo de difusión.
Datos de entrenamiento: Entrenado con conjuntos de datos masivos de pares de texto e imagen, con subtítulos enriquecidos para capturar matices más sutiles.
Diversidad y prejuicios: Incorpora un filtrado exhaustivo y un etiquetado de datos para minimizar el contenido dañino en el conjunto de datos de entrenamiento, lo que garantiza una generación de IA responsable.

📈 Métricas de rendimiento

Calidad visual: Logra las puntuaciones más altas en calidad visual, produciendo imágenes atractivas y prácticamente libres de artefactos.
Precisión de la información: Demuestra una alta precisión al responder a indicaciones complejas.

📊 Comparación con otros modelos

La evaluación humana en GenAI-Bench muestra sistemáticamente el rendimiento superior de Imagen 3 en las pruebas comparativas de preferencia general frente a otros modelos líderes.

Puntuaciones Elo de GenAI-Bench para Imagen 3 frente a otros modelos — Evaluación humana en GenAI-Bench: Puntuaciones Elo en la prueba comparativa de preferencia general para Imagen 3 frente a otros modelos.

Porcentajes de tasa de victorias de GenAI-Bench para Imagen 3 frente a otros modelos — Evaluación humana en GenAI-Bench: porcentajes de tasa de victorias para la preferencia general de Imagen 3 frente a otros modelos.

🚀 Primeros pasos con Imagen 3

Ejemplos de código:

Integre Imagen 3 en sus aplicaciones utilizando los fragmentos de código proporcionados. Las imágenes generadas se guardarán directamente en su ordenador.

Parámetros para la generación de imágenes:

num_imágenes [int]: Especifica el número de imágenes que se van a generar.
semilla [int]: Establece la semilla aleatoria para la generación reproducible de imágenes.
mejorar_prompt [booleano]: Parámetro opcional para utilizar una función de reescritura de mensajes basada en LLM para obtener imágenes de mayor calidad que se ajusten mejor a la intención del mensaje original. Deshabilitar esta opción puede afectar la calidad de la imagen y su coherencia con el mensaje original.
convertir_base64_a_url [booleano]: Si es así, se devolverá la URL de la imagen; de lo contrario, se proporcionará el archivo de imagen en formato base64.
relación_de_aspecto [1:1, 9:16, 16:9, 3:4, 4:3]: Define la relación de aspecto de la imagen generada.
generación_persona [no_permitir, permitir_adulto]: Controla la generación de personas mediante el modelo.
Configuración de seguridad [bloquear_bajo_y_arriba, bloquear_medio_y_arriba, bloquear_solo_alto]: Añade un nivel de filtrado a los mecanismos de seguridad.

Formato de respuesta esperado:

Tras una generación exitosa, recibirá una respuesta JSON similar a esta:

{  "datos" : [ { "tipo_mime" : "imagen/png" , "url" : "base64image / url" , "mensaje" : "mensaje mejorado" } ] }

El modelo está fácilmente disponible en el Plataforma API de IA/ML bajo el nombre "Imagen 3".

Documentación completa de la API:

Detallado Documentación de la API Está disponible para desarrolladores que busquen información detallada.

🛡️ Directrices éticas e IA responsable

Seguridad ante todo: Desarrollado teniendo en cuenta la seguridad y la responsabilidad como principios primordiales, y adhiriéndose estrictamente a los Principios de IA de Google.
Marca de agua digital (SynthID): Incluye SynthID para identificar claramente el contenido generado por IA, promoviendo así la transparencia.
Prevención de contenido dañino: Emplea filtros de seguridad avanzados para prevenir rigurosamente la generación de contenido dañino.
Gobernanza de datos: Utiliza políticas sólidas de gobernanza de datos, lo que garantiza que los datos de los clientes nunca se utilicen con fines de capacitación.

📄 Licencias y uso

Al usar Imagen 3, es fundamental cumplir con las directrices de uso responsable de IA de Google. Para ciertos casos, como la generación de imágenes con personas, es posible que se requieran aprobaciones adicionales de Google. Si tu proyecto implica la creación de este tipo de imágenes, asegúrate de seguir los procesos de aprobación necesarios.

Acceda a la API de Imagen 3 y comience su viaje creativo. aquí.

❓ Preguntas frecuentes (FAQ)

P1: ¿Qué es Imagen 3?

A1: Imagen 3 es el último modelo de IA de Google para convertir texto en imagen, lanzado en julio de 2024, diseñado para generar imágenes fotorrealistas de alta calidad a partir de descripciones de texto con detalles mejorados, iluminación y comprensión del lenguaje natural.
P2: ¿Cómo mejora Imagen 3 las versiones anteriores?

A2: Ofrece una calidad de imagen superior, una iluminación más rica, menos artefactos visuales, una mejor comprensión de indicaciones complejas, una mejor representación del texto dentro de las imágenes y una mayor resolución.
P3: ¿Puedo usar Imagen 3 para proyectos comerciales?

A3: Sí, Imagen 3 está diseñada para diversas aplicaciones, como marketing, publicidad y diseño. Sin embargo, para usos específicos, como la generación de imágenes de personas, es posible que se requiera la aprobación de Google.
P4: ¿Qué medidas existen para el uso ético de la IA?

A4: Imagen 3 incorpora marcas de agua digitales (SynthID), emplea filtros de seguridad para prevenir contenido dañino y sigue políticas sólidas de gobernanza de datos, en consonancia con los Principios de IA de Google.
P5: ¿Dónde puedo acceder a la API de Imagen 3?

A5: La API Imagen 3 está disponible en el Plataforma API de IA/MLPuedes encontrar documentación detallada de la API. aquí.

Campo de juegos de IA

Pruebe todos los modelos de API en el entorno de pruebas antes de integrarlos. Ofrecemos más de 300 modelos para integrar en su aplicación.

Pruébalo gratis

Más de 300 modelos de IA para
OpenClaw y agentes de IA

Ahorre un 20% en costos

Fichas de $1 gratis para nuevos miembros