



const main = async () => {
const response = await fetch('https://api.ai.cc/v2/generate/video/alibaba/generation', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'alibaba/wan-25-preview/image-to-video',
prompt: 'Mona Lisa puts on glasses with her hands.',
image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
}),
}).then((res) => res.json());
console.log('Generation:', response);
};
main()
import requests
def main():
url = "https://api.ai.cc/v2/generate/video/alibaba/generation"
payload = {
"model": "alibaba/wan-25-preview/image-to-video",
"prompt": "Mona Lisa puts on glasses with her hands.",
"image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
}
headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}
response = requests.post(url, json=payload, headers=headers)
print("Generation:", response.json())
if __name__ == "__main__":
main()

Detalle del producto
Descubrir Son 2,5El modelo de IA de vanguardia de Alibaba Cloud, diseñado para revolucionar la creación de video. Esta avanzada herramienta de generación de imagen a video transforma imágenes estáticas en videos dinámicos y fotorrealistas, con audio totalmente sincronizado. Ideal para creadores de contenido, anunciantes y cineastas, Wan 2.5 ofrece una solución eficiente y rentable para producir contenido de video de alta calidad con control de movimiento cinematográfico y duraciones extendidas.
Está diseñado para enriquecer la narración a través de intrincados movimientos de cámara e integración de audio nativo, estableciendo un nuevo estándar para la síntesis de video impulsada por IA.
⚙️ Especificaciones técnicas
- Duración del vídeo: Arriba a 10 segundos (superando a muchos rivales con un límite de ~8 segundos)
- Velocidad de cuadros: 24 cuadros por segundo (fps)
- Audio: Voz en off sincronizada en tiempo real, música de fondo y efectos de sonido.
- Arquitectura del modelo: Marco de IA multimodal que integra visión, audio y comprensión del lenguaje
- Compatibilidad: Se ejecuta de manera eficiente en una amplia gama de GPU con requisitos de recursos optimizados
🚀 Puntos de referencia de rendimiento
- Velocidad de generación: 25% más rápido que la línea base Wan 2.2
- Calidad de vídeo: Mejora del 30% en fidelidad visual y suavidad
- Cumplimiento semántico: 40% más preciso Al reflejar las indicaciones de entrada en el contenido de vídeo
- Reconstrucción del movimiento: Transiciones un 35% más suaves y movimientos realistas
- Sincronización audiovisual: Sincronización de labios y alineación de sonido de alta precisión
- Eficiencia del hardware: 20% mejor Utilización de recursos de la GPU en comparación con versiones anteriores
✨ Características principales de Wan 2.5
- Generación de imagen a vídeo: Convierte imágenes estáticas en vídeos dinámicos de hasta 10 segundos.
- Sincronización audio-vídeo: Soporte nativo para voz en off, música y efectos de sonido integrados con capacidades de sincronización de labios.
- Control de movimiento avanzado: Movimientos de cámara cinematográficos que incluyen panorámica, inclinación, zoom, dolly y enfoque de rack.
- Soporte multilingüe: Manejo robusto de chino y otros idiomas en indicaciones para una alineación AV consistente.
- Renderizado eficiente: Optimizado para una generación más rápida y una compatibilidad de hardware más amplia.
💰 Precios de la API
- 480p: $0,0525/segundo
- 720p: $0,105/segundo
- 1080p: $0,1575/segundo
💡 Casos de uso
- Contenido de redes sociales: Cree imágenes y sonidos dinámicos para publicaciones atractivas.
- Marketing y publicidad: Genere vídeos cortos y anuncios cautivadores.
- Narración cinematográfica: Cree cortometrajes o vídeos promocionales con estilo profesional.
- Animaciones educativas: Producir contenido educativo narrado con elementos visuales sincronizados.
- Mejora de vídeo: Aplique transferencia de estilo o mejore el metraje existente con capacidades de IA.
👨💻 Ejemplo de código
📊 Comparación con otros modelos líderes
Wan 2.5 contra. Google Veo 3
Son 2,5 Destaca por su audio sincronizado nativo, que ofrece voz en off, música y sincronización labial integradas. Si bien Veo 3 se centra en un sonido ambiental realista, a veces puede presentar desajustes audiovisuales. Wan 2.5 generalmente ofrece... más rápido y más rentable Experiencia de generación de video.
Wan 2.5 contra. Ellos 2.2
En comparación con su predecesor, Son 2,5 Proporciona un movimiento dinámico mejorado con transiciones más suaves y mejor fidelidad visualTambién cuenta con compatibilidad de hardware mejorada y velocidad de renderizado, con utilización optimizada de la GPU y soporte más amplio de dispositivos para un rendimiento superior.
Wan 2.5 contra. Kling 2.5 Turbo
Son 2,5 Destaca por sus capacidades de sincronización de audio y vídeo más completas, que incluyen sincronización labial precisa y efectos de sonido completos. Si bien Kling 2.5 Turbo prioriza el movimiento con física consistente y el comportamiento natural de los objetos, ofrece una integración de audio menos avanzada que Wan 2.5.
🔗 Integración de API
Se puede acceder fácilmente a Wan 2.5 a través de la API de IA/ML. Para obtener información detallada sobre la implementación y el uso, consulte la documentación completa. disponible aquí.
❓ Preguntas frecuentes (FAQ)
P1: ¿Qué es Wan 2.5 y qué lo hace único?
A1: Wan 2.5 es el modelo avanzado de IA de Alibaba Cloud para convertir imágenes estáticas en vídeos dinámicos y fotorrealistas con audio totalmente sincronizado. Sus principales ventajas incluyen mayor duración de vídeo (hasta 10 segundos), sincronización de audio en tiempo real con sincronización labial y control de movimiento cinematográfico, lo que ofrece una solución rentable para la generación de vídeos de alta calidad.
P2: ¿Cómo ha mejorado Wan 2.5 con respecto a versiones anteriores como Wan 2.2?
A2: Wan 2.5 ofrece mejoras significativas con respecto a Wan 2.2, incluyendo una velocidad de generación un 25 % mayor, una mejora del 30 % en la fidelidad y fluidez visual, y un 20 % mejor utilización de los recursos de la GPU. También incluye movimiento dinámico mejorado, transiciones más fluidas y una mayor compatibilidad de hardware, lo que lo convierte en un sistema superior en rendimiento y eficiencia.
P3: ¿Qué tipo de control creativo ofrece Wan 2.5 para la generación de vídeo?
A3: Wan 2.5 ofrece un amplio control creativo con movimientos de cámara cinematográficos avanzados, como panorámica, inclinación, zoom, dolly y enfoque de rack. Esto permite a los usuarios crear narrativas atractivas y efectos visuales dinámicos, brindándoles un control profesional sobre la producción animada a partir de una sola imagen.
P4: ¿Wan 2.5 es adecuado para uso profesional y cuáles son sus principales aplicaciones?
A4: Por supuesto. Wan 2.5 está diseñado para profesionales y es ideal para la creación de contenido para redes sociales, vídeos de marketing, anuncios cortos, narrativa cinematográfica y animaciones educativas. Su alta calidad, rentabilidad y renderizado eficiente lo convierten en una herramienta potente para diversos creadores de contenido, anunciantes y cineastas.
Q5: ¿Cómo gestiona Wan 2.5 la integración de audio?
A5: Wan 2.5 cuenta con sincronización de audio y video nativa en tiempo real, compatible con voces en off integradas, música de fondo y efectos de sonido con sincronización labial de alta precisión. Esto garantiza una experiencia visual fluida e inmersiva, lo que lo distingue de los modelos con capacidades de audio menos avanzadas.
Patio de juegos de IA



Acceso