Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

能否将gpt4-v改成国内的免费开源大模型 #3

Open
spike2233 opened this issue Feb 1, 2024 · 5 comments
Open

能否将gpt4-v改成国内的免费开源大模型 #3

spike2233 opened this issue Feb 1, 2024 · 5 comments

Comments

@spike2233
Copy link

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

@junyangwang0410
Copy link
Collaborator

junyangwang0410 commented Feb 1, 2024

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。

Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

@junyangwang0410
Copy link
Collaborator

我们提供了一个免费的API来调用Mobile Agent。请查看最新的README.md的Quick Start部分。

We provide a free API to try Mobile Agent. Please check the Quick Start section of the latest README.md.

@DjangoCai1991
Copy link

支持其它模型有具体时间表吗?免费的api调用了一次就提示超出限制了(Exceeded the quota for today, please try again tomorrow)

@RainPot
Copy link

RainPot commented Mar 14, 2024

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。

Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗?
目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答

@junyangwang0410
Copy link
Collaborator

国内的大模型对中文的支持比较好,是否计划接入别的大模型?

感谢关注。我们已计划接入mPLUG-Owl,并使用大规模数据强化agent的能力。下一个版本将不再依赖GPT-4V,具备更强大的操作能力。欢迎继续关注我们的后续工作。
Thanks for the attention. We have planned to access mPLUG-Owl and use large-scale data to strengthen the capabilities of agent. The next version will no longer rely on GPT-4V with more powerful operation capability. Welcome to follow our future work.

请教一下 下个版本的方向是将定位能力直接集成到MLLM,实现端到端的输出吗? 目前来看GPT-4V到UI操作输出 中间的gap其实还是有些大的,后面的目标是解决这个问题吗。感谢回答

最终方案预期是端到端的,也就是Agent可以直接产生坐标。目前基于GPT-4V版本的性能限制主要是你所提到的由语言空间转换为操作空间的gap,我们同时也会开发新的版本来针对这个问题来提升转换的效率。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants