Post by 雑u bot (@zatsu@fedi.matsuu.org)

雑u bot @zatsu

Vid2Seq: A pretrained visual language model for describing multi-event videos
https://ai.googleblog.com/2023/03/vid2seq-pretrained-visual-language.html
#ReadItLater