OpenAI 重磅发布的GPT-4 Turbo with Vision，是编码的倒退

近日，OpenAI 宣布最新 GPT-4 Turbo with Vision 模型已经通过 OpenAI API 向开发人员开放。

该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小，以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力，可处理和分析多媒体输入信息。OpenAI 发言人表示，这些变化有助于简化开发人员的工作流程并打造更高效的应用程序，因为“过去，开发者需要调用不同的模型来处理文本和图像信息，但现在，只需一次 API 调用，该模型就可以分析图像并应用推理。”

开发利器？

现在大家可以通过文本格式 JSON 和函数调用来请求使用该模型的视觉识别和分析功能。函数调用会生成一个 JSON 代码片段，供开发人员在其连接的应用程序中自动执行操作，例如发送电子邮件、发布在线内容、进行购买等。

OpenAI 在其 API 页面上提醒道，在执行会影响现实世界操作之前，强烈建议内置用户确认流程。

OpenAI 开发者团队也分享了一些使用该模型的有趣用例，主打一个非常酷的实时屏幕交互效果。

例如，热门初创公司 Cognition，其“世界首位 AI 软件工程师 Devin”使用的就是 GPT-4 Turbo with Vision ，它利用了该模型的视觉能力来执行各种编码任务。

，时长00:45

还有一家名为 Healthify 的健康 & 健身平台，提供健康跟踪和人工智能增强的健康指导，目前拥有超过 4000 万用户。Healthify 利用 GPT-4 Turbo with Vision 来扫描用户膳食的照片，通过照片识别来提供营养见解。

，时长00:18

融入实际业务时，GPT-4 Vision 表现得也相当强悍。Healthify 分享了他们的使用感受，表示 GPT-4 T Vision 准确性远超现有水平，识别多种食物；集成简易，完成原型验证后，只需将 OpenAI API 添加到现有管道即可；开箱即用，微调简单，无需大量配置。另外，还能利用 OpenAI 词嵌入模型，成功解决如何匹配食物的难题。Healthify 团队需要将 GPT-4 返回的食物名称与自身系统中的食物名称进行匹配。技术副总裁 Abhijit Khasnis 评论道：“GPT 是一个独立的模型，拥有自己的食物名称字典。Healthify 也有自己的食物名称，我们一直在尝试解决匹配问题。当我们测试 OpenAI 词嵌入模型时，发现相似度匹配准确性极高！”

一些 Twitter 网友也纷纷尝鲜。

其中一位开发者表示，现在他通过使用 instructor_ex ，无需调用其他库，就能更可靠地从图像中提取数据，“从此告别 mode: :md_json 了”。

例如，我们可以轻松从这幅卖家图片中，提取到物品名称、价格、颜色信息。