Can interleaved cross-attention learn image-text correlations better than CLIP?

Heykuki News

2 points

3 years ago

1 comment

Threaded

Loading comments...

Can interleaved cross-attention learn image-text correlations better than CLIP? | Heykuki News