



const { OpenAI } = require('openai');
const api = new OpenAI({
baseURL: 'https://api.ai.cc/v1',
apiKey: '',
});
const main = async () => {
const result = await api.chat.completions.create({
model: 'gpt-4o',
messages: [
{
role: 'system',
content: 'You are an AI assistant who knows everything.',
},
{
role: 'user',
content: 'Tell me, why is the sky blue?'
}
],
});
const message = result.choices[0].message.content;
console.log(`Assistant: ${message}`);
};
main();
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.ai.cc/v1",
api_key="",
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "system",
"content": "You are an AI assistant who knows everything.",
},
{
"role": "user",
"content": "Tell me, why is the sky blue?"
},
],
)
message = response.choices[0].message.content
print(f"Assistant: {message}")

Detalles del producto
✨ GPT-4º: La IA multimodal de próxima generación
GPT-4o, desarrollado por OpenAIRepresenta un avance significativo en inteligencia artificial, integrando a la perfección texto, visión y, próximamente, capacidades de audio. Lanzado por fases a partir de mayo de 2024, este modelo insignia es la última versión de la serie GPT-4, diseñada para el razonamiento en tiempo real y una versatilidad sin precedentes.
💡 Aspectos destacados de GPT-4o
- Dominio multimodal: Funcionalidades unificadas en texto, vídeo y próximamente compatibilidad con audio.
- Llamada a funciones mejorada y modo JSON: Integración mejorada para desarrolladores.
- Visión avanzada: Comprensión e interpretación superiores de las imágenes.
- Soporte lingüístico global: Rendimiento significativamente mejorado para idiomas distintos del inglés.
- Rentable y más rápido: Aumento de los límites de velocidad y reducción de los costes de uso de la API.
Información básica
Nombre del modelo: GPT-4o
Desarrollador/Creador: OpenAI
Fecha de lanzamiento: Se lanzará por fases a partir de mayo de 2024.
Versión: Última versión de la serie GPT-4
Tipo de modelo: IA multimodal (compatibilidad con texto, visión y próximamente audio)
Casos de uso previstos
GPT-4o está diseñado específicamente para desarrolladores y empresas que buscan integrar inteligencia artificial de vanguardia en diversas aplicaciones. Esto incluye chatbots avanzados, generación de contenido sofisticada e interpretación de datos complejos.
Capacidades de diagnóstico por imagen médica: Cabe destacar que GPT-4o alcanza una precisión de aproximadamente el 90 % en la interpretación de imágenes radiológicas, como radiografías y resonancias magnéticas. Obtenga más información sobre este y otros modelos de IA en aplicaciones sanitarias: Aplicaciones de IA en el sector sanitario .
Soporte lingüístico mejorado: Gracias a una tokenización mejorada, GPT-4o ofrece una sólida compatibilidad con múltiples idiomas, lo que lo convierte en una herramienta muy valiosa para implementaciones globales.
⚙️ Especificaciones técnicas
Arquitectura y formación
Arquitectura: Basado en la alta eficiencia Arquitectura de transformadores, optimizado para la velocidad y la integración multimodal sin interrupciones.
Datos de entrenamiento: Formación en una amplia y diversa gama de textos de internet y datos estructurados.
Punto de corte de conocimiento: La información está actualizada hasta Octubre de 2023.
Fuente y tamaño de los datos: Utiliza un extenso conjunto de datos basado en Internet, cuyo tamaño exacto no ha sido revelado por OpenAI.
Diversidad y prejuicios: Entrenados rigurosamente con diversos conjuntos de datos para minimizar el sesgo y garantizar la solidez en diferentes grupos demográficos.
🚀 Puntos de referencia de rendimiento
Los resultados de las pruebas publicadas por OpenAI demuestran que GPT-4o obtiene consistentemente puntuaciones significativamente mejores o comparables al compararlo con otros modelos multimodales grandes (LMM) líderes. Esto incluye versiones anteriores de GPT-4, Claude 3 Opus de Anthropic, Gemini de Google y Llama3 de Meta.

Indicadores clave de rendimiento:
- Exactitud: GPT-4o establece nuevos estándares en la traducción de audio, superando a los modelos rivales de Meta y Google, así como al propio Whisper-v3 de OpenAI.
- Velocidad: Logra un tiempo de respuesta promedio a la entrada de audio de 232 milisegundos (máximo 320 ms), comparable a una conversación humana. Además, es un 50 % más rentable en el uso de API.
- Robustez: Demuestra una mayor capacidad para manejar información diversa y mantener un rendimiento constante en diferentes idiomas y modalidades.
Para obtener información más detallada sobre las capacidades innovadoras de GPT-4o, consulte el blog oficial de OpenAI. "ChatGPT-4o. 7 funciones que quizás te hayas perdido."
🛠️ Uso y aplicaciones
Ejemplos de código / SDK:
Los desarrolladores pueden integrar GPT-4o en sus aplicaciones utilizando los SDK disponibles. Aquí hay un ejemplo de cómo se podría invocar la función de autocompletar un chat:
import openai client = openai.OpenAI() response = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "Eres un asistente útil."}, {"role": "user", "content": "¿Qué es GPT-4o?"} ] ) print(response.choices[0].message.content) 🎯 Casos de uso clave de GPT-4o
1. OCR con GPT-4o
GPT-4o destaca en tareas de reconocimiento óptico de caracteres (OCR), convirtiendo imágenes en texto con precisión. Puede responder de forma fiable a instrucciones como "Leer el número de serie" o "Leer el texto de la imagen", lo que lo hace muy eficaz para digitalizar información.
2. Comprensión del documento
El modelo demuestra un excelente rendimiento al extraer detalles específicos de imágenes con mucho texto. Por ejemplo, al presentarle un recibo y preguntarle "¿Cuánto pagué?" o un menú de comida con "¿Cuál es el precio del restaurante Ham?", GPT-4o proporciona respuestas precisas de forma consistente.
3. Aplicaciones de visión artificial en tiempo real
Gracias a su mayor velocidad y capacidades visuales y auditivas integradas, GPT-4o permite el desarrollo de potentes aplicaciones de visión artificial en tiempo real. La interacción con datos visuales en directo facilita la recopilación rápida de información y la toma de decisiones, aspectos cruciales para tareas como la navegación, la traducción, la asistencia guiada y el análisis de información visual compleja.
4. Transformación del soporte al cliente
GPT-4o revoluciona el servicio al cliente al permitir una asistencia más precisa, empática y personalizada las 24 horas del día mediante chatbots impulsados por IA. Transforma radicalmente la manera en que las empresas interactúan con sus clientes, mejorando la satisfacción y la eficiencia.
⚖️ Información sobre licencias
- Se pueden obtener licencias comerciales. Los detalles se pueden obtener directamente a través de OpenAI.
❓ Preguntas frecuentes (FAQ)
P1: ¿Cuál es la capacidad principal de GPT-4o?
A1: GPT-4o es un modelo de IA multimodal que integra texto, visión y próximamente soporte de audio, lo que permite el razonamiento en tiempo real a través de estas modalidades.
P2: ¿Cómo se compara el GPT-4o con los modelos anteriores en términos de velocidad y coste?
A2: GPT-4o presume de un tiempo de respuesta promedio a la entrada de audio de 232 milisegundos, comparable al de un humano. Además, es un 50 % más rentable en el uso de su API en comparación con versiones anteriores, al tiempo que iguala el rendimiento de GPT-4 Turbo en texto y código en inglés.
P3: ¿Se puede utilizar GPT-4o para aplicaciones médicas?
A3: Sí, GPT-4o demuestra una alta precisión (aproximadamente del 90%) en la interpretación de imágenes radiológicas como rayos X y resonancias magnéticas, lo que lo convierte en una herramienta poderosa para aplicaciones de imágenes médicas.
P4: ¿Cuáles son algunas de las principales aplicaciones empresariales de GPT-4o?
A4: GPT-4o es ideal para la atención al cliente (chatbots), la comprensión de documentos, la visión artificial en tiempo real (por ejemplo, navegación, asistencia guiada) y la generación de contenido avanzado.
P5: ¿Cuál es la fecha límite de conocimiento de GPT-4o?
A5: El conocimiento de GPT-4o está actualizado hasta octubre de 2023.
Campo de juegos de IA



Acceso