Vid2Seq: A pretrained visual language model for describing multi-event videos

Heykuki News

87 points

3 years ago

16 comments

Threaded

Loading comments...

Vid2Seq: A pretrained visual language model for describing multi-event videos | Heykuki News