



const fs = require('fs');
const { Readable } = require('stream');
const { finished } = require('stream/promises');
const main = async () => {
const {
model_mesh: { url, file_name },
} = await fetch('https://api.ai.cc/v1/image/generations', {
method: 'POST',
headers: {
Authorization: 'Bearer ',
'Content-Type': 'application/json',
},
body: JSON.stringify({
model: 'triposr',
image_url: 'https://upload.wikimedia.org/wikipedia/commons/7/7a/Basketball.png',
}),
}).then((res) => res.json());
const { body } = await fetch(url);
const stream = fs.createWriteStream(`./${file_name}`);
await finished(Readable.fromWeb(body).pipe(stream));
};
main();
import requests
def main():
response = requests.post(
"https://api.ai.cc/v1/images/generations",
headers={
"Authorization": "Bearer ",
"Content-Type": "application/json",
},
json={
"model": "triposr",
"image_url": "https://upload.wikimedia.org/wikipedia/commons/7/7a/Basketball.png",
},
)
response.raise_for_status()
data = response.json()
url = data["model_mesh"]["url"]
file_name = data["model_mesh"]["file_name"]
mesh_response = requests.get(url, stream=True)
with open(file_name, "wb") as file:
for chunk in mesh_response.iter_content(chunk_size=8192):
file.write(chunk)
if __name__ == "__main__":
main()

Produktdetails
Wir stellen TripoSR vor: Revolutionäre Bild-zu-3D-Rekonstruktion
TripoSR ist ein bahnbrechendes, auf Transformatoren basierendes Modell, das gemeinsam entwickelt wurde von Stabilitäts-KI Und Tripo AIDieses am 4. März 2024 veröffentlichte Modell der Version 1.0 setzt neue Maßstäbe für die schnelle 3D-Objektrekonstruktion. Es zeichnet sich durch die Generierung hochwertiger 3D-Netze aus nur einem einzigen RGB-Bild aus und erreicht dies in weniger als 10 Sekunden. 0,5 Sekunden auf einer NVIDIA A100 GPU.
💡 Wichtigste Fähigkeiten und Merkmale
- 🚀 Ultraschnelle Generation: Erreicht eine Feedforward-3D-Generierung in weniger als 0,5 Sekunden.
- 🧠 Fortschrittliche Transformatorarchitektur: Nutzt ein effizientes Transformator-Design für anspruchsvolle Signalverarbeitung.
- ✨ Hochwertige 3D-Netze: Erzeugt detaillierte und präzise 3D-Netzausgaben.
- 🖼️ Eingabe eines einzelnen Bildes: Vereinfacht den Prozess, da nur ein RGB-Bild benötigt wird.
- 🏆 Modernste Leistung: Führt im Vergleich zu Wettbewerbern bei den Kennzahlen Chamfer Distance und F-Score.
🎯 Beabsichtigte Anwendungen
TripoSR wurde für Branchen entwickelt, die eine schnelle 3D-Visualisierung direkt aus 2D-Bildern benötigen. Zu den Hauptanwendungsgebieten gehören:
- Unterhaltung: Für die schnelle Erstellung von Assets in Film und Animation.
- Gaming: Schnelles Prototyping und Generierung von Spielinhalten.
- Industriedesign: Beschleunigte Visualisierung von Produktkonzepten.
- Architektur: Schnelle Umwandlung von Architekturskizzen oder Fotos in 3D-Modelle.
Da TripoSR ein Bild-zu-3D-Modell ist, arbeitet es unabhängig von menschlichen Sprachen und ist somit universell einsetzbar.
⚙️ Technischer Tiefgang
Modellarchitektur
Die ausgeklügelte Architektur von TripoSR ist eine Mischung aus transformatorbasierten Komponenten, die sorgfältig für eine überlegene 3D-Rekonstruktion optimiert wurden:
- Bildcodierer:
- Verwendet einen vortrainierten DINOv1-Vision-Transformator.
- Transformiert RGB-Bilder in latente Vektoren und erfasst dabei sowohl globale als auch lokale Merkmale.
- Bild-zu-Dreidecker-Decoder:
- Ein transformatorbasierter Decoder.
- Wandelt latente Vektoren in eine triplane NeRF-Darstellung (Neural Radiance Field) um.
- Nutzt hochentwickelte Aufmerksamkeitsmechanismen, um komplexe Beziehungen zwischen den Komponenten des Triplane-Systems zu erlernen.
- Neural Radiance Field (NerF) basierend auf einer Triplane:
- Der letzte Schritt ist die Erzeugung der 3D-Darstellung.
- Speziell optimiert für die effektive Bearbeitung komplexer Formen und Texturen.
Trainingsdaten
Das Modell wurde anhand einer sorgfältig ausgewählten Teilmenge des umfangreichen Datensatzes rigoros trainiert. Veröffentlichter Datensatz, wurde speziell aufgrund seines Fokus auf realistische und qualitativ hochwertige 3D-Modelle ausgewählt.
Leistungskennzahlen
TripoSR übertrifft andere Open-Source-Alternativen in quantitativen und qualitativen Bewertungen durchweg. Es zeigt eine außergewöhnliche Leistung bei wichtigen Kennzahlen wie beispielsweise Fasenabstand Und F-Wert über eine breite Palette unterschiedlicher Datensätze hinweg.
📊 Vergleich mit anderen Modellen
- ✔️ Genauigkeit: Bietet im Vergleich zu anderen Open-Source-Lösungen eine überlegene 3D-Rekonstruktionsqualität.
- ⚡ Geschwindigkeit: Erzeugt komplexe 3D-Netze in unter 0,5 Sekunden auf einer NVIDIA A100 GPU.
- 🛡️ Robustheit: Zeigt eine bemerkenswerte Anpassungsfähigkeit an verschiedene Abbildungsbedingungen durch dynamische Ableitung von Kameraparametern, ohne auf explizite Konditionierung angewiesen zu sein.
🛠️ Nutzung & Lizenzierung
Codebeispiele
Für Entwickler, die TripoSR integrieren möchten, stehen Codebeispiele und Dokumentation zur Verfügung. Sie können Erkunden Sie die offizielle Ankündigung und die Ressourcen von TripoSR. Für detaillierte Implementierungsleitfäden.
Ethische Richtlinien & Lizenzierung
TripoSR wird unter der freizügigen Lizenz veröffentlicht MIT-LizenzDies fördert die Open-Source-Entwicklung und den verantwortungsvollen Einsatz in verschiedenen Bereichen, darunter KI, Computer Vision und Computergrafik. Die MIT-Lizenz erlaubt eine breite Nutzung, die kommerzielle, private und Forschungsanwendungen umfasst.
Durch die Nutzung der fortschrittlichen Funktionen von TripoSR können Entwickler leistungsstarke 3D-Rekonstruktionsanwendungen mit beispielloser Geschwindigkeit und Genauigkeit erstellen. Dieser Durchbruch eröffnet spannende neue Möglichkeiten in verschiedensten Bereichen, die auf eine schnelle 2D-zu-3D-Konvertierung angewiesen sind.
❓ Häufig gestellte Fragen (FAQ)
- F: Was ist TripoSR?
- A: TripoSR ist ein fortschrittliches Bild-zu-3D-Rekonstruktionsmodell, das von Stability AI und Tripo AI entwickelt wurde. Es generiert sehr schnell hochwertige 3D-Netze aus einem einzelnen 2D-RGB-Bild.
- F: Wie schnell kann TripoSR ein 3D-Modell generieren?
- A: Auf einer NVIDIA A100 GPU kann es in weniger als 0,5 Sekunden ein 3D-Mesh generieren und ist damit eine der schnellsten verfügbaren Lösungen.
- F: Welche Art von Eingabe benötigt TripoSR?
- A: TripoSR benötigt nur ein einziges RGB-Bild zur 3D-Objektrekonstruktion.
- F: Was sind die Hauptanwendungsgebiete von TripoSR?
- A: Es eignet sich ideal für Anwendungen in den Bereichen Unterhaltung, Spiele, Industriedesign und Architektur, wo eine schnelle 3D-Visualisierung aus 2D-Bildern von entscheidender Bedeutung ist.
- F: Welche Lizenzierung ist für TripoSR erforderlich?
- A: TripoSR wird unter der freizügigen MIT-Lizenz veröffentlicht, die seine Nutzung für kommerzielle, private und Forschungszwecke erlaubt und so eine offene und verantwortungsvolle KI-Entwicklung fördert.
KI-Spielplatz



Einloggen