跳到主要内容

vision

sidebar_position: 5
---

# 视觉

视觉按钮是一个强大的工具,用于分析图像并提取有意义的信息。

## 如何使用

- 请确保您已连接到 CodeGPT Plus 或 Ollama。
- 上传一张图像作为模型的提示(仅支持 .jpg, .png, .webp 格式)。

您可以识别并定位图像中的对象。然后,模型可以提供诸如对象类型、位置、大小和颜色等详细信息。

:::note 询问图像中的文本
<p align="center">
<img width="800" height="650" src="https://github.com/user-attachments/assets/1afdec55-3bed-4f12-af94-6ea1e425505a"/>
</p>
:::

:::note 询问图像
<p align="center">
<img width="800" height="650" src="https://github.com/user-attachments/assets/c94b808c-48b6-4b74-b9ad-30b474d3f84e"/>
</p>
:::

:::note 询问网页图片并生成代码
<p align="center">
<img width="800" height="650" src="https://github.com/user-attachments/assets/8c189ca6-106c-4f21-b928-0a8f94d0cf26"/>
</p>
:::