qwen-bg
max-ico04
In
Aus
max-ico02
Chat
max-ico03
deaktivieren
Stabiles TripoSR 3D
Die TripoSR API generiert hochwertige 3D-Netze aus Einzelbildern in weniger als 0,5 Sekunden und nutzt dabei eine Transformer-Architektur für eine effiziente Rekonstruktion.
Gratis-Tokens im Wert von 1 $ für neue Mitglieder
Text to Speech
                                        const fs = require('fs');
const { Readable } = require('stream');
const { finished } = require('stream/promises');

const main = async () => {
  const {
    model_mesh: { url, file_name },
  } = await fetch('https://api.ai.cc/v1/image/generations', {
    method: 'POST',
    headers: {
      Authorization: 'Bearer ',
      'Content-Type': 'application/json',
    },
    body: JSON.stringify({
      model: 'triposr',
      image_url: 'https://upload.wikimedia.org/wikipedia/commons/7/7a/Basketball.png',
    }),
  }).then((res) => res.json());

  const { body } = await fetch(url);
  const stream = fs.createWriteStream(`./${file_name}`);
  await finished(Readable.fromWeb(body).pipe(stream));
};

main();
                                
                                        import requests


def main():
    response = requests.post(
        "https://api.ai.cc/v1/images/generations",
        headers={
            "Authorization": "Bearer ",
            "Content-Type": "application/json",
        },
        json={
            "model": "triposr",
            "image_url": "https://upload.wikimedia.org/wikipedia/commons/7/7a/Basketball.png",
        },
    )

    response.raise_for_status()
    data = response.json()
    url = data["model_mesh"]["url"]
    file_name = data["model_mesh"]["file_name"]

    mesh_response = requests.get(url, stream=True)

    with open(file_name, "wb") as file:
        for chunk in mesh_response.iter_content(chunk_size=8192):
            file.write(chunk)


if __name__ == "__main__":
    main()
Docs

Eine API für über 300 KI-Modelle

Sparen Sie 20 % der Kosten und erhalten Sie 1 $ gratis!
qwenmax-bg
Bild
Stabiles TripoSR 3D

Produktdetails

Wir stellen TripoSR vor: Revolutionäre Bild-zu-3D-Rekonstruktion

TripoSR ist ein bahnbrechendes, auf Transformatoren basierendes Modell, das gemeinsam entwickelt wurde von Stabilitäts-KI Und Tripo AIDieses am 4. März 2024 veröffentlichte Modell der Version 1.0 setzt neue Maßstäbe für die schnelle 3D-Objektrekonstruktion. Es zeichnet sich durch die Generierung hochwertiger 3D-Netze aus nur einem einzigen RGB-Bild aus und erreicht dies in weniger als 10 Sekunden. 0,5 Sekunden auf einer NVIDIA A100 GPU.

💡 Wichtigste Fähigkeiten und Merkmale

  • 🚀 Ultraschnelle Generation: Erreicht eine Feedforward-3D-Generierung in weniger als 0,5 Sekunden.
  • 🧠 Fortschrittliche Transformatorarchitektur: Nutzt ein effizientes Transformator-Design für anspruchsvolle Signalverarbeitung.
  • Hochwertige 3D-Netze: Erzeugt detaillierte und präzise 3D-Netzausgaben.
  • 🖼️ Eingabe eines einzelnen Bildes: Vereinfacht den Prozess, da nur ein RGB-Bild benötigt wird.
  • 🏆 Modernste Leistung: Führt im Vergleich zu Wettbewerbern bei den Kennzahlen Chamfer Distance und F-Score.

🎯 Beabsichtigte Anwendungen

TripoSR wurde für Branchen entwickelt, die eine schnelle 3D-Visualisierung direkt aus 2D-Bildern benötigen. Zu den Hauptanwendungsgebieten gehören:

  • Unterhaltung: Für die schnelle Erstellung von Assets in Film und Animation.
  • Gaming: Schnelles Prototyping und Generierung von Spielinhalten.
  • Industriedesign: Beschleunigte Visualisierung von Produktkonzepten.
  • Architektur: Schnelle Umwandlung von Architekturskizzen oder Fotos in 3D-Modelle.

Da TripoSR ein Bild-zu-3D-Modell ist, arbeitet es unabhängig von menschlichen Sprachen und ist somit universell einsetzbar.

⚙️ Technischer Tiefgang

Modellarchitektur

Die ausgeklügelte Architektur von TripoSR ist eine Mischung aus transformatorbasierten Komponenten, die sorgfältig für eine überlegene 3D-Rekonstruktion optimiert wurden:

  1. Bildcodierer:
    • Verwendet einen vortrainierten DINOv1-Vision-Transformator.
    • Transformiert RGB-Bilder in latente Vektoren und erfasst dabei sowohl globale als auch lokale Merkmale.
  2. Bild-zu-Dreidecker-Decoder:
    • Ein transformatorbasierter Decoder.
    • Wandelt latente Vektoren in eine triplane NeRF-Darstellung (Neural Radiance Field) um.
    • Nutzt hochentwickelte Aufmerksamkeitsmechanismen, um komplexe Beziehungen zwischen den Komponenten des Triplane-Systems zu erlernen.
  3. Neural Radiance Field (NerF) basierend auf einer Triplane:
    • Der letzte Schritt ist die Erzeugung der 3D-Darstellung.
    • Speziell optimiert für die effektive Bearbeitung komplexer Formen und Texturen.

Trainingsdaten

Das Modell wurde anhand einer sorgfältig ausgewählten Teilmenge des umfangreichen Datensatzes rigoros trainiert. Veröffentlichter Datensatz, wurde speziell aufgrund seines Fokus auf realistische und qualitativ hochwertige 3D-Modelle ausgewählt.

Leistungskennzahlen

TripoSR übertrifft andere Open-Source-Alternativen in quantitativen und qualitativen Bewertungen durchweg. Es zeigt eine außergewöhnliche Leistung bei wichtigen Kennzahlen wie beispielsweise Fasenabstand Und F-Wert über eine breite Palette unterschiedlicher Datensätze hinweg.

📊 Vergleich mit anderen Modellen

  • ✔️ Genauigkeit: Bietet im Vergleich zu anderen Open-Source-Lösungen eine überlegene 3D-Rekonstruktionsqualität.
  • Geschwindigkeit: Erzeugt komplexe 3D-Netze in unter 0,5 Sekunden auf einer NVIDIA A100 GPU.
  • 🛡️ Robustheit: Zeigt eine bemerkenswerte Anpassungsfähigkeit an verschiedene Abbildungsbedingungen durch dynamische Ableitung von Kameraparametern, ohne auf explizite Konditionierung angewiesen zu sein.

🛠️ Nutzung & Lizenzierung

Codebeispiele

Für Entwickler, die TripoSR integrieren möchten, stehen Codebeispiele und Dokumentation zur Verfügung. Sie können Erkunden Sie die offizielle Ankündigung und die Ressourcen von TripoSR. Für detaillierte Implementierungsleitfäden.

Ethische Richtlinien & Lizenzierung

TripoSR wird unter der freizügigen Lizenz veröffentlicht MIT-LizenzDies fördert die Open-Source-Entwicklung und den verantwortungsvollen Einsatz in verschiedenen Bereichen, darunter KI, Computer Vision und Computergrafik. Die MIT-Lizenz erlaubt eine breite Nutzung, die kommerzielle, private und Forschungsanwendungen umfasst.

Durch die Nutzung der fortschrittlichen Funktionen von TripoSR können Entwickler leistungsstarke 3D-Rekonstruktionsanwendungen mit beispielloser Geschwindigkeit und Genauigkeit erstellen. Dieser Durchbruch eröffnet spannende neue Möglichkeiten in verschiedensten Bereichen, die auf eine schnelle 2D-zu-3D-Konvertierung angewiesen sind.

Häufig gestellte Fragen (FAQ)

F: Was ist TripoSR?
A: TripoSR ist ein fortschrittliches Bild-zu-3D-Rekonstruktionsmodell, das von Stability AI und Tripo AI entwickelt wurde. Es generiert sehr schnell hochwertige 3D-Netze aus einem einzelnen 2D-RGB-Bild.
F: Wie schnell kann TripoSR ein 3D-Modell generieren?
A: Auf einer NVIDIA A100 GPU kann es in weniger als 0,5 Sekunden ein 3D-Mesh generieren und ist damit eine der schnellsten verfügbaren Lösungen.
F: Welche Art von Eingabe benötigt TripoSR?
A: TripoSR benötigt nur ein einziges RGB-Bild zur 3D-Objektrekonstruktion.
F: Was sind die Hauptanwendungsgebiete von TripoSR?
A: Es eignet sich ideal für Anwendungen in den Bereichen Unterhaltung, Spiele, Industriedesign und Architektur, wo eine schnelle 3D-Visualisierung aus 2D-Bildern von entscheidender Bedeutung ist.
F: Welche Lizenzierung ist für TripoSR erforderlich?
A: TripoSR wird unter der freizügigen MIT-Lizenz veröffentlicht, die seine Nutzung für kommerzielle, private und Forschungszwecke erlaubt und so eine offene und verantwortungsvolle KI-Entwicklung fördert.

KI-Spielplatz

Testen Sie alle API-Modelle in der Sandbox-Umgebung, bevor Sie sie integrieren. Wir bieten über 300 Modelle zur Integration in Ihre App an.
Kostenlos testen
api-right-1
Modell-BG02-1

Eine API
Mehr als 300 KI-Modelle

Sparen Sie 20 % der Kosten