
PLM — это открытая и воспроизводимая модель языка зрения, решающая сложные визуальные задачи, объединяющая обработку изображений, видео и текста.
PLM обучалась на крупнейшем из существующих датасетов с 2,5 миллионами аннотированных человеком видео.

Модель способна создавать подробные текстовые описания к изображениям и видеороликам, учитывая не только объекты, но и их действия, контекст и отношения между ними.

PLM распространяется с 1, 3 и 8 миллиардами параметров и доступен всем желающим на Github и HuggingFace
*признана экстремистской и запрещена в России
================
👁 News | 👁 Soft | 👁 Gear |

Video is too big
![]()