[video]Meta Mocha:语音文本生视频

直接看效果,距离多个SOTA模型搭配下的可控性,还是有点距离。人物的表情有点过度夸张。

source