Visual–Tactile Fusion Transformer for Grasping and Slip Detection of Unknown Objects

Yuzhen Xie; Aiguo Song; Hui Li

doi:10.1109/tii.2026.3683166

Back

Visual–Tactile Fusion Transformer for Grasping and Slip Detection of Unknown Objects

Article 2026

Authors

YX
Yuzhen Xie
Aiguo Song
Southeast University
HL
Hui Li

Abstract

1 min read

The efficient integration of visual and tactile information is essential for slip detection and evaluation of grasping stability. However, existing research generally combines visual or tactile modalities as prior information, without fully exploring mechanisms for fusing complementary modalities. In this article, we propose a visual–tactile fusion Transformer (VTF-Trans) for slip detection, designed to handle unaligned data in different formats and facilitate cross-modal information exchange. The main advantages of the proposed method are summarized as follows: first, VTF-Trans employs an improved dual-stream transformer for feature extraction. In addition, we introduce a gated modal attention module to further refine cross-modal fusion. Compared with the existing methods, VTF-Trans effectively integrates useful information from different modalities across multiple scales. Second, to extract deep multimodal information, we propose a cross-modal attention (CMA) mechanism. By defining cross-affinity based on single-modality affinities (token metrics), CMA naturally alleviates the gap between different modalities and domains. Third, we evaluate VTF-trans on three datasets and conduct unknown object grasping experiments. Compared with the state-of-the-art methods, VTF-Trans achieves the highest accuracy for robotic grasping and slip detection, highlighting its superior performance and practical applicability.

Discussion(0)

No comments yet. Be the first to comment.

Related publications

Article2026

Visual–Tactile Fusion Transformer for Grasping and Slip Detection of Unknown Objects

Abstract

Discussion(0)

Related publications

Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms

Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms

A novel tactile sensor with multimodal vision and tactile units for multifunctional robot interaction

Visual-Geometry Diffusion Policy: Robust Generalization via Complementarity-Aware Multimodal Fusion

Active Perception Driven Tactile Modeling of Deformable Objects for Robots