DiffSurf: A Transformer-Based Diffusion Model for Generating and Reconstructing 3D Surfaces in Pose

被引：0

作者：

Yoshiyasu, Yusuke ^{[1
]}

Sun, Leyuan ^{[1
]}

机构：

[1] Natl Inst Adv Ind Sci & Technol, 1-1-1 Umezono, Tsukuba, Ibaraki, Japan

来源：

COMPUTER VISION-ECCV 2024, PT LXXXII | 2025年 / 15140卷

关键词：

Diffusion model; 3D surface; Human mesh recovery;

D O I：

10.1007/978-3-031-73007-8_15

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

This paper presents DiffSurf, a transformer-based denoising diffusion model for generating and reconstructing 3D surfaces. Specifically, we design a diffusion transformer architecture that predicts noise from noisy 3D surface vertices and normals. With this architecture, DiffSurf is able to generate 3D surfaces in various poses and shapes, such as human bodies, hands, animals and man-made objects. Further, DiffSurf is versatile in that it can address various 3D downstream tasks including morphing, body shape variation and 3D human mesh fitting to 2D keypoints. Experimental results on 3D human model benchmarks demonstrate that DiffSurf can generate shapes with greater diversity and higher quality than previous generative models. Furthermore, when applied to the task of single-image 3D human mesh recovery, DiffSurf achieves accuracy comparable to prior techniques at a near real-time rate.

引用

页码：246 / 264

页数：19

共 50 条

[21] AnchorPoint: Query Design for Transformer-Based 3D Object Detection and Tracking
Liu, Hao
Ma, Yanni
Wang, Hanyun
Zhang, Chaobo
Guo, Yulan
IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, 2023, 24 (10) : 10988 - 11000
[22] Reconstructing 3D Human Pose by Watching Humans in the Mirror
Fang, Qi
Shuai, Qing
Dong, Junting
Bao, Hujun
Zhou, Xiaowei
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 12809 - 12818
[23] LOCAL TO GLOBAL TRANSFORMER FOR VIDEO BASED 3D HUMAN POSE ESTIMATION
Ma, Haifeng
Ke Lu
Xue, Jian
Niu, Zehai
Gao, Pengcheng
2022 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (IEEE ICMEW 2022), 2022,
[24] Sewer defect detection from 3D point clouds using a transformer-based deep learning model
Zhou, Yunxiang
Ji, Ankang
Zhang, Limao
AUTOMATION IN CONSTRUCTION, 2022, 136
[25] Diff3DHPE: A Diffusion Model for 3D Human Pose Estimation
Zhou, Jieming
Zhang, Tong
Hayder, Zeeshan
Petersson, Lars
Harandi, Mehrtash
2023 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS, ICCVW, 2023, : 2084 - 2094
[26] TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection
Pang, Su
Morris, Daniel
Radha, Hayder
2023 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), 2023, : 10902 - 10909
[27] Transformer-Based Optimized Multimodal Fusion for 3D Object Detection in Autonomous Driving
Alaba, Simegnew Yihunie
Ball, John E.
IEEE ACCESS, 2024, 12 : 50165 - 50176
[28] MEMformer: Transformer-based 3D Human Motion Estimation from MoCap Markers
Luan, Jinhui
Jiang, Haiyong
Diao, Junqi
Wang, Ying
Xiao, Jun
SIGGRAPH ASIA 2022 POSTERS, SA 2022, 2022,
[29] Feasibility Study of Textureless Object Detection and Pose Estimation Based on a Model with 3D Edgels and Surfaces
Shinshu University, Japan
不详
不详
Paladyn, 1 (191-204):
[30] Abstract: 3D Medical Image Segmentation with Transformer-based Scaling of ConvNets MedNeXt
Roy, Saikat
Koehler, Gregor
Baumgartner, Michael
Ulrich, Constantin
Isensee, Fabian
Jaeger, Paul F.
Maier-Hein, Klaus
BILDVERARBEITUNG FUR DIE MEDIZIN 2024, 2024, : 79 - 79

← 1 2 3 4 5 →