CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Bojia Zi; Shihao Zhao; Xianbiao Qi; Jianan Wang; Yukai Shi; Qianyu Chen; Bin Liang; Rong Xiao; Kam‐Fai Wong; Lei Zhang

doi:10.1609/aaai.v39i10.33203

RDLNetworkEkosistem

Hakkımızda SSS

Giriş yap Başla

Hakkımızda SSS Gizlilik Şartlar İletişim

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility — Bojia Zi (2025) | RDL Network

Back

Home
Publications
CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Shared by

Lei Zhang

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Article 2025 en

Authors

BZ
Bojia Zi
SZ
Shihao Zhao
XQ
Xianbiao Qi

Abstract

1 min read

Video inpainting is a crucial task with diverse applications, including fine-grained video editing, video recovery, and video dewatermarking. However, most existing video inpainting methods primarily focus on visual content completion while neglecting text information. There are only a limited number of text-guided video inpainting techniques, and these techniques struggle with maintaining visual quality and exhibit poor semantic representation capabilities. In this paper, we introduce CoCoCo, a text-guided video inpainting diffusion framework. To address the aforementioned challenges, we enhance both the training data and model structure. Specifically, we devise an instance-aware region selection strategy for masked area sampling and develop a novel motion block that incorporates efficient 3D full attention and textual cross attention. Additionally, our CoCoCo framework can be seamlessly integrated with various personalized text-to-image diffusion models through a delicate training-free transfer mechanism. Comprehensive experiments demonstrate that CoCoCo can create high-quality visual content with enhanced temporal consistency, improved text controllability, and better compatibility with personalized image models.

Discussion(0)

No comments yet. Be the first to comment.

Publication Info

DOI: 10.1609/aaai.v39i10.33203
Year: 2025
Published: —
Language: en

Article Details

Volume: 39
Issue: 10
Link Of The Paper: https://doi.org/10.1609/aaai.v39i10.33203

Timeline

Created:June 19, 2026

Related publications

Preprint2024

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Abstract

Discussion(0)

Related publications

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models

Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution

Text Prior Guided Scene Text Image Super-resolution

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis