David A. Ross

Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

Lijun Yu

José Lezama

Nitesh Bharadwaj Gundavarapu

Luca Versari

Kihyuk Sohn

David Minnen

Yong Cheng

Agrim Gupta

Xiuye Gu

Alex Hauptmann

Boqing Gong

Ming-Hsuan Yang

Irfan Essa

David Ross

Lu Jiang

ICLR (2024)

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dan Kondratyuk

Lijun Yu

Xiuye Gu

José Lezama

Jonathan Huang

Grant Schindler

Rachel Hornung

Vighnesh Birodkar

Jimmy Yan

Ming-Chang Chiu

Krishna Somandepalli

Hassan Akbari

Yair Alon

Yong Cheng

Josh Dillon

Agrim Gupta

Meera Hahn

Anja Hauth

David Hendon

Alonso Martinez

David Minnen

Mikhail Sirotenko

Kihyuk Sohn

Xuan Yang

Hartwig Adam

Ming-Hsuan Yang

Irfan Essa

Huisheng Wang

David Ross

Bryan Seybold

Lu Jiang

ICML (2024)

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

Lijun Yu

Yong Cheng

Zhiruo Wang

Vivek Kumar

Wolfgang Macherey

Yanping Huang

David Ross

Irfan Essa

Yonatan Bisk

Ming-Hsuan Yang

Kevin Murphy

Alex Hauptmann

Lu Jiang

NeurIPS (2023)

UnLoc: a unified framework for video localization tasks

Shen Yan

Xuehan Xiong

Arsha Nagrani

Anurag Arnab

Zhonghao Wang

Weina Ge

David Ross

Cordelia Schmid

International Conference on Computer Vision (2023)

AI Choreographer: Music Conditioned 3D Dance Generation with AIST++

Angjoo Kanazawa

David Ross

Ruilong Li

Shan Yang

ICCV 2021 (2021)

An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds

Rui Huang

Wanyue Zhang

Abhijit Kundu

Caroline Rebecca Pantofaru

David Alexander Ross

Thomas Funkhouser

Alireza Fathi

ECCV (2020)

Pillar-based Object Detection for Autonomous Driving

Yue Wang

Alireza Fathi

Abhijit Kundu

David Alexander Ross

Caroline Rebecca Pantofaru

Thomas Funkhouser

Justin Solomon

ECCV (2020)

Virtual Multi-view Fusion for 3D Semantic Segmentation

Abhijit Kundu

Xiaoqi(Michael) Yin

Alireza Fathi

David Alexander Ross

Brian Brewington

Tom Funkhouser

Caroline Pantofaru

European Conference on Computer Vision (2020)

Speech2Action:Cross-modal Supervision for Action Recognition

Arsha Nagrani

Chen Sun

David Ross

Rahul Sukthankar

Cordelia Schmid

Andrew Zisserman

CVPR 2020

DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes

Mahyar Najibi

Guangda Lai

Abhijit Kundu

Zhichao Lu

Vivek Mansing Rathod

Tom Funkhouser

Caroline Rebecca Pantofaru

David Alexander Ross

Larry S. Davis

Alireza Fathi

CVPR 2020

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

David A. Ross

Research Areas

Join us

Defining the technology of today and tomorrow.

Philosophy

People

Research areas

Foundational ML & Algorithms

Computing Systems & Quantum AI

Science, AI & Society

Projects

Publications

Resources

Shaping the future, together.

Student programs

Faculty programs

Conferences & events

David A. Ross

Research Areas

Filter by:

Publications

Years

Research Areas

Teams

Join us