Die Rekonstruktion von Form, Material und Beleuchtung aus Bildern ist eine komplexe Herausforderung in den Bereichen Computer Vision und Computergrafik. Ein neuer Ansatz, bekannt als SHINOBI, bietet nun eine innovative Lösung für diese Aufgabe. SHINOBI steht für "Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild" und ist ein End-to-End-Framework, das die Rekonstruktion von Form, Material und Beleuchtung aus Objektbildern ermöglicht, die unter variierenden Lichtbedingungen, Posen und Hintergründen aufgenommen wurden.
Inverse Rendering, also die Rückgewinnung von dreidimensionalen Szenen aus zweidimensionalen Bildern, ist eine langjährige Herausforderung, die eine gemeinsame Optimierung von Form, Strahlungsverhalten und Pose erfordert. SHINOBI verwendet eine implizite Formdarstellung basierend auf einer Multi-Resolution-Hash-Kodierung, die eine schnellere und robustere Formrekonstruktion ermöglicht. Diese Technologie optimiert gleichzeitig die Kameraausrichtung, was den bisherigen Methoden überlegen ist.
Darüber hinaus ermöglicht SHINOBI das Editieren von Beleuchtung und Objektreflexion, indem die BRDF (Bidirektionale Reflexionsverteilungsfunktion) und die Beleuchtung gemeinsam mit der Objektform optimiert werden. Dies ist entscheidend, um realistische Beleuchtung und Materialbeschaffenheit von Objekten in digitalen Anwendungen darzustellen. Die Technik ist klassenagnostisch, was bedeutet, dass sie nicht auf bestimmte Objektkategorien beschränkt ist und auf Bildkollektionen von Objekten "in the wild", also in natürlichen Umgebungen aufgenommenen Bildern, angewendet werden kann. Das Ergebnis sind rebeleuchtungsfähige 3D-Assets, die in verschiedenen Anwendungsfällen wie Augmented/Virtual Reality, Filmproduktionen, Spielen und anderen digitalen Medien verwendet werden können.
Ein ähnliches Projekt, NeRO, kurz für "Neural Geometry and BRDF Reconstruction of Reflective Objects from Multiview Images", wurde auf der SIGGRAPH 2023 vorgestellt. Dieses Projekt konzentriert sich auf die Rekonstruktion von Form und BRDF reflektierender Objekte unter Verwendung von Multiview-Bildern. Reflektierende Objekte stellen eine besondere Herausforderung dar, da spiegelnde Reflexionen blickabhängig sind und somit die Multiview-Konsistenz verletzen, die normalerweise die Grundlage für Rekonstruktionsmethoden bildet. NeRO nutzt neuartige Neural-Rendering-Techniken, um die Interaktion zwischen Umgebungslicht und Objektoberflächen zu modellieren und damit die Rekonstruktion reflektierender Objekte aus Multiview-Bildern zu ermöglichen.
Die Rekonstruktion wirft jedoch insbesondere Probleme auf, wenn die Geometrie unbekannt ist und die Objekte von indirektem Licht beleuchtet werden. NeRO schlägt einen zweistufigen Ansatz vor, um diese Probleme zu bewältigen. Zunächst wird durch die Anwendung der Split-Sum-Approximation und der integrierten Richtungscodierung eine genaue Rekonstruktion der Geometrie reflektierender Objekte ohne Objektmasken ermöglicht. Danach, mit fixierter Objektgeometrie, verwendet NeRO präzisere Sampling-Methoden, um die Umgebungslichter und die BRDF des Objekts zu ermitteln. Umfangreiche Experimente haben gezeigt, dass NeRO in der Lage ist, die Geometrie und die BRDF von reflektierenden Objekten präzise zu rekonstruieren, und das nur anhand von positionierten RGB-Bildern, ohne Kenntnis der Umgebungslichter und Objektmasken.
Die Entwicklungen in der Neuralen Rekonstruktion, wie sie durch SHINOBI und NeRO repräsentiert werden, sind beispielhaft für die Fortschritte in der Computergrafik und Computer Vision, die neue Möglichkeiten in der digitalen Welt eröffnen. Die Fähigkeit, realistische 3D-Modelle aus gewöhnlichen Bildern zu generieren, wird die Erstellung von Content für digitale Medien revolutionieren und die Grenzen zwischen realer und virtueller Welt weiter verwischen. Solche Technologien können auch in der Produktvisualisierung, im Online-Shopping und in vielen anderen Bereichen Anwendung finden, in denen eine genaue und realistische Darstellung von Objekten erforderlich ist.