ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

Heykuki News

9 points

2 years ago

1 comment

Threaded

Loading comments...

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models | Heykuki News