Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在复现这个项目的过程中,我遇到了很多问题无法解决。 #7

Open
Olivia-Ye opened this issue Apr 24, 2022 · 3 comments

Comments

@Olivia-Ye
Copy link

问题包括以下方面:
1、new speaker的keypoint是怎么生成的?
2、我想要生成新的人物演讲动作,我需要从该人物的以往手势视频中获取lab、wav、textgrid(通过mfa音素对齐),此外还要进行openpose获取keypoint吗?
3、请问您提供的预训练模型是通用的吗?(我的意思是指:不需要指定某个说话人,生成他的动作风格)
如果您能提供一个联系方式来讨论问题,不胜感激!我已经为您这个项目忙活了半个月了,实在是很多地方不太理解。

@TheTempAccount
Copy link
Owner

  1. 不太明白你的意思
  2. 重新训练需要这些,生成的话构建类似sample_audio文件夹里面的数据(.wav, .textgrid)就行了
  3. 模型里不需要指定说话人,这里没有动作风格的概念,通不通用看你的目的是啥

@Olivia-Ye
Copy link
Author

我尝试了只使用sample_audio文件夹里面的数据(.wav, .textgrid)不指定clip_path的情况下,生成出来是只有手势没有脸的如下
000008

看了代码,有无clip_path有一些区别,但是最后生成的pose矩阵维度是一样的,不明白为何最终只有手势,并且如何解决这个问题?
希望您可以解答此问题,感激不尽!

@ChengyuanYan
Copy link

@Olivia-Ye clip_path specifies ground truth which is where face keypoints are stored. the model outputs upper body configuration, exclusive of face landmarks.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants