CogAgent官网,革命性的GUI agent模型,由智谱AI和清华大学联合开发
简介
CogAgent,由智谱AI和清华大学联合开发,是一个革命性的GUI agent模型,它仅依赖屏幕截图作为输入,无需任何文本表征,就能预测并执行GUI操作。自发布以来,它已经在多个领域展现出卓越的性能,并获得了超过100万的下载量和200个工作的引用。智谱开源了其最新版的GUI Agent:CogAgent-9B-20241220! 新版增强了GUI界面感知能力、推理预测的准确性、动作空间完善性、任务适应性和泛化能力更好,支持中英文双语屏幕截图和语言交互!
CogAgent官网: https://github.com/THUDM/CogAgent
主要功能和特色
全新升级:CogAgent-9B-20241220
CogAgent的最新版本——CogAgent-9B-20241220已经开源。这一版本基于强大的GLM-4V-9B双语VLM基座模型,带来了以下革新:
📈
性能飞跃
在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性上取得显著提升。
🌐
双语支持
支持中英文双语的屏幕截图和语言交互。
🔍
视觉处理优化
支持1120×1120高分辨率图像输入,提升了模型效率。
📚
数据集丰富
整合了多种数据集,包括无监督数据和GUI指令微调数据集。
🤖
预训练与后训练策略
优化了VLM和GUI预训练,以及GUI agent后训练策略。
🧠
推理及思维链优化
提升了模型的分析、推理、预测能力。
🔧
动作空间完善
新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的交互能力。
在多个数据集上,CogAgent-9B-20241220均取得了领先成绩,包括Screenspot、OmniAct、CogAgentBench-basic-cn和OSworld,证明了其在GUI agent领域的卓越性能。
CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,专注于图形用户界面(GUI)的自动化操作。以下是CogAgent的主要功能和特色:
1. **GUI理解和操作**:CogAgent能够理解和操作图形用户界面(GUI),执行如点击按钮、输入文本等任务。
2. **屏幕截图输入**:模型仅依赖屏幕截图作为输入,无需额外的文本表征,如HTML,使其在多种设备上应用灵活。
3. **高分辨率处理**:支持高达1120×1120像素的高分辨率图像输入,能够处理更复杂的视觉信息。
4. **双语交互**:支持中文和英文的屏幕截图和语言交互,增强了模型的国际化应用能力。
5. **预测GUI操作**:根据用户指定的任务和历史操作,模型能够预测下一步的GUI操作。
6. **自动化任务执行**:CogAgent能模拟用户操作,自动化执行一系列GUI任务。
7. **跨平台应用**:适用于个人电脑、手机、车机等多种基于GUI交互的场景。
8. **性能领先**:在多个GUI操作数据集上取得了领先成绩,显示了其卓越的性能。
9. **视觉问答(Visual QA)**:CogAgent能针对任意GUI截图进行问答,例如解释网页、PPT、手机软件的功能,能解说游戏界面。
10. **视觉定位(Grounding)**:模型能识别和解释小型GUI元素和文本,对于有效的GUI交互至关重要。
11. **多模态能力**:CogAgent结合了视觉和语言模态,能在不依赖API调用的条件下,实现跨应用、跨网页的功能调用来执行任务。
12. **开源模型**:CogAgent模型已开源,推动大模型Agent生态的发展。
CogAgent通过这些功能和特色,为自动化测试、智能交互等领域提供了新解决方案,并在多个图像理解基准测试中取得了领先成绩。
数据评估
本站别摸鱼导航提供的CogAgent都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由别摸鱼导航实际控制,在2024年12月28日 下午6:07收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,别摸鱼导航不承担任何责任。