DeepSeek-微软开源OmniParser V2，可将DeepSeek转变为计算机智能代理！

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新，V2版本， OmniParser 旨在使任何大语言模型（LLM）能够作为计算机使用代理，进行图形用户界面（GUI）自动化。

微软开源OmniParser V2，可将DeepSeek转变为计算机智能代理！-图片1

也就是帮助计算机理解和自动执行图形界面操作的工具，它可以让大型语言模型（如 GPT）识别屏幕上的按钮、图标等可交互元素，从而实现自动化任务。

OmniParser V2 比之前的版本更加精准、快速，尤其在小图标和高分辨率屏幕的识别上表现更好。V2 在速度和功能上相较于 V1 提升了60%，并支持多种操作系统和应用程序图标识别。

OmniParser V2 的目标是将这些强大的语言模型与计算机操作结合起来。通过将 LLM 与 OmniParser 结合，系统可以自动化许多计算机使用任务，像是通过语言指令来控制计算机界面。这样，任何能够运行的 LLM 都能变成一个“计算机使用代理”，能够执行用户的指令，如：

简单来说，OmniParser V2 就是让 AI 不仅能理解语言，还能通过理解屏幕上的内容，像人一样去操作电脑，完成任务。

OmniParser V2 的主要改进：

微软开源OmniParser V2，可将DeepSeek转变为计算机智能代理！-图片2