Fora

Bater papo

desativar

Kling V2.1 Imagem-para-Vídeo Padrão

Ele equilibra a saída de alta resolução com o processamento eficiente e simulações dinâmicas de câmera para aplicações multimídia versáteis.

Tokens de $1 grátis para novos membros

Text to Speech

Javascript

Python

                                        const main = async () => {
  const response = await fetch('https://api.ai.cc/v2/generate/video/kling/generation', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'kling-video/v2.1/standard/image-to-video',
      prompt: 'Mona Lisa puts on glasses with her hands.',
      image_url: 'https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg',
      duration: '5',
    }),
  }).then((res) => res.json());

  console.log('Generation:', response);
};

main()

                                        import requests


def main():
    url = "https://api.ai.cc/v2/generate/video/kling/generation"
    payload = {
        "model": "kling-video/v2.1/standard/image-to-video",
        "prompt": "Mona Lisa puts on glasses with her hands.",
        "image_url": "https://s2-111386.kwimgs.com/bs2/mmu-aiplatform-temp/kling/20240620/1.jpeg",
        "duration": "5",
    }
    headers = {"Authorization": "Bearer ", "Content-Type": "application/json"}

    response = requests.post(url, json=payload, headers=headers)
    print("Generation:", response.json())


if __name__ == "__main__":
    main()

Docs

Mais de 300 modelos de IA para OpenClaw e agentes de IA

Economize 20% nos custos e ganhe tokens grátis de $1.

Obter chave de API Explorar modelos

Kling V2.1 Imagem-para-Vídeo Padrão

Detalhes do produto

O Kling V2.1 Imagem-para-Vídeo Padrão O modelo de geração representa um salto significativo nas capacidades de IA multimodal, oferecendo síntese de vídeo robusta e versátil. Ele transforma entradas de imagem estáticas, opcionalmente guiadas por instruções textuais, em conteúdo de vídeo dinâmico. Esta iteração enfatiza a estabilidade aprimorada, a maior qualidade de quadro e a coerência temporal otimizada, mantendo a acessibilidade amigável ao usuário e o desempenho computacional eficiente.

✨ Especificações técnicas

• Qualidade de geração de vídeo: Utiliza transformadores convolucionais espaço-temporais avançados combinados com novos módulos de inferência de movimento para gerar sequências de vídeo suaves, consistentes e com artefatos minimizados a partir de imagens de quadro-chave únicas ou múltiplas.
• Resolução e taxa de quadros: Suporta resoluções de saída de até 1080p Full HD de forma constante 24 fpsOtimizado para um equilíbrio entre fidelidade visual e renderização eficiente, adequado para aplicações em tempo real e geração em lote.
• Integração de prompts e imagens: Apresenta uma arquitetura de fusão multimodal sofisticada que combina sinergicamente a extração detalhada de características da imagem com comandos em linguagem natural, permitindo uma evolução sutil da cena e modificações estilísticas.
• Efeitos de câmera e movimento: Incorpora síntese básica de movimento de câmera, incluindo panorâmica, zoom lento e efeitos sutis de paralaxe, para aprimorar a imersão e a narrativa dinâmica, garantindo consistência visual e transições naturais.

Exemplo de geração de vídeo a partir de imagem no Kling V2.1

📚 Dados de treinamento

O modelo foi treinado em um corpus multimídia expandido e diversificado, composto por conjuntos de dados de pares de imagem e vídeo em múltiplos domínios: clipes cinematográficos, cenas da natureza, ambientes urbanos e obras de arte dinâmicas. Este conjunto de dados apresenta anotações detalhadas e legendas descritivas multilíngues, promovendo uma forte generalização entre estilos, movimentos e contextos culturais.

📈 Métricas de desempenho

O Kling V2.1 alcança uma alta relação fidelidade-latência, fornecendo saídas de vídeo perfeitas com artefatos temporais mínimos e velocidades de inferência competitivas. Ele suporta processamento em lote e geração de vídeo de duração variável guiada por instruções, oferecendo controle preciso sobre a amplitude do movimento e a consistência estilística.

💲 Preços da API

A partir de US$ 0,0588 por segundo de vídeo gerado.

💡 Principais características

✅ Geração direta de imagem para vídeo: Converte uma única imagem ou um conjunto de imagens em sequências de vídeo suaves e coerentes, preservando os elementos visuais essenciais e introduzindo movimentos plausíveis e consistentes com a semântica da cena.
✅ Condicionamento por estímulo multimodal: Permite aos usuários controlar a dinâmica e a estética do vídeo por meio de instruções textuais opcionais, aumentando a flexibilidade criativa e a profundidade narrativa.
✅ Coerência Temporal Aprimorada: Incorpora técnicas inovadoras de regularização temporal, reduzindo significativamente a cintilação, a oscilação e as descontinuidades de movimento para manter um fluxo visual fluido entre os quadros.
✅ Emulação dinâmica de câmera: Implementa movimentos de câmera fundamentais, incluindo zooms sutis, panorâmicas e pequenas rotações, aprimorando a profundidade da cena e a presença cinematográfica sem sacrificar o desempenho.
✅ Adaptabilidade estilística e contextual: Treinado para atuar em uma ampla gama de gêneros visuais, incluindo paisagens naturais, ambientes urbanos, estilos de animação e representações artísticas, permitindo uma produção criativa diversificada.
✅ Suporte multilíngue: Oferece compreensão e processamento robustos de comandos em inglês, chinês e outros idiomas, atendendo às necessidades de usuários globais e a amplas aplicações internacionais.

🚀 Casos de uso

➤ Desenvolvimento artístico e criativo de vídeos a partir de recursos visuais existentes.
➤ Aprimoramento de vídeo e criação de cenas dinâmicas para conteúdo de marketing atraente.
➤ Mídias sociais e narrativa digital: transformando imagens estáticas em movimentos envolventes.
➤ Visualização conceitual preliminar e prototipagem multimídia rápida.
➤ Aplicação em jogos, geração de conteúdo AR/VR e experiências de mídia interativa.
➤ Geração de conteúdo de vídeo multilíngue para engajamento de públicos diversos em todo o mundo.

💻 Exemplo de código

 // Exemplo de trecho de código Python para integração da API de imagem para vídeo Kling V2.1 import kling_api # Inicialize o cliente da API Kling com sua chave de autenticação client = kling_api.KlingClient(api_key="SUA_CHAVE_DE_API") # Defina sua imagem de entrada e um prompt de texto opcional image_path = "caminho/para/sua/imagem_de_entrada.jpg" text_prompt = "Uma águia majestosa sobrevoando montanhas nevadas ao nascer do sol." duração_do_vídeo = 5 # Duração desejada do vídeo em segundos try: with open(image_path, "rb") as image_file: # Chama o endpoint de geração de vídeo a partir de imagem response = client.generate_video( model="kling-video/v2.1/standard/image-to-video", image=image_file.read(), prompt=text_prompt, duration=duração_do_vídeo ) if response.status == "success": print("Geração de vídeo bem-sucedida!") print(f"URL do vídeo gerado: {response.video_url}") # Próximos passos: por exemplo, baixar o vídeo ou integrá-lo ao seu aplicativo else: print(f"Falha na geração do vídeo: {response.error_message}") except FileNotFoundError: print(f"Erro: Arquivo de imagem não encontrado em {image_path}") except Exception as e: print(f"Ocorreu um erro inesperado: {e}")

🆚 Comparação com outros modelos

vs Kling V2.0 Standard I2V: O Kling V2.1 oferece melhorias significativas, aumentando a resolução de saída de 720p para 1080pA solução apresenta maior suavidade temporal por meio de módulos de inferência de movimento aprimorados e integra um mecanismo de fusão multimodal mais poderoso para alinhamento superior de imagem e texto e consistência geral do vídeo. Tanto a velocidade de inferência quanto a taxa de transferência da API foram otimizadas para menor latência e maior concorrência.

vs Kling V1.5 Standard T2V: Enquanto a versão 1.5 se concentra principalmente na síntese de texto para vídeo (T2V), o padrão I2V da versão 2.1 muda o paradigma em direção a geração de vídeo condicionada por imagem (I2V). A versão 2.1 oferece uma dinâmica de cena mais rica, guiada principalmente por entrada visual com instruções de texto complementares, expandindo consideravelmente sua versatilidade de casos de uso. Apesar do foco diferente na modalidade de entrada, a versão 2.1 também apresenta melhorias notáveis na continuidade temporal e na resolução.

❓ Perguntas frequentes (FAQ)

P1: Quais são as principais vantagens do Kling V2.1 em relação ao seu antecessor, o V2.0?

O Kling V2.1 oferece avanços significativos, incluindo Resolução de saída Full HD 1080p (Acima de 720p), maior suavidade temporal e alinhamento imagem-texto aprimorado devido a um mecanismo de fusão multimodal mais poderoso. Também apresenta velocidade de inferência e taxa de transferência da API otimizadas para maior eficiência.

Q2: O Kling V2.1 consegue gerar vídeos a partir de múltiplas imagens ou apenas de uma única imagem?

O Kling V2.1 é versátil e pode gerar sequências de vídeo suaves e coerentes a partir de uma única imagem estática ou de um conjunto de várias imagens de quadros-chave, integrando-as em uma narrativa visual dinâmica.

Q3: Como o uso de instruções textuais aprimora o processo de geração de vídeos?

Os comandos textuais opcionais permitem que os usuários controlem com precisão a dinâmica, a estética e a direção narrativa geral do vídeo. Esse condicionamento multimodal facilita a evolução sutil das cenas e modificações estilísticas profundamente fundamentadas tanto nas imagens de entrada quanto no contexto textual fornecido.

Q4: O Kling V2.1 é adequado para aplicações que exigem geração de vídeo em tempo real?

Sim, o modelo é otimizado para um equilíbrio entre fidelidade visual e renderização eficiente. Isso o torna ideal para aplicações em tempo real, mídia interativa e geração de vídeo em lote, graças às suas velocidades de inferência competitivas e artefatos temporais mínimos.

Q5: Quais idiomas são suportados para prompts textuais no Kling V2.1?

O Kling V2.1 oferece suporte multilíngue robusto. Ele consegue entender e processar com eficiência comandos em inglês, chinês e vários outros idiomas, atendendo assim a uma base de usuários diversificada e internacional.

Playground de IA

Teste todos os modelos de API no ambiente de sandbox antes de integrá-los. Oferecemos mais de 300 modelos para integrar ao seu aplicativo.

Experimente grátis

Mais de 300 modelos de IA para
OpenClaw e Agentes de IA

Economize 20% nos custos