OpenAI升级GPT-4 API,视觉和更长文本版本上线
激石Pepperstone(http://www.paraat.net/)报道:
OpenAI宣布GPT-4 Turbo全面升级!
一款具有视觉处理能力的最新GPT-4 Turbo模型——GPT-4 Turbo with Vision已通过OpenAI API正式上线。
虽然GPT-4-Turbo发布已久,但一直以“预览版”的方式提供,和其他 GPT-4 Turbo 预览版一样,GPT-4 Turbo支持128k上下文窗口,可以在单个 prompt中处理超过300页的文本,模型训练的数据截止日期为2023年12月,更长的上下文意味着模型输出结果更加准确。
此次发布的GPT-4-Turbo正式版最大的革新之处在于,其新增的视觉理解能力,且视觉请求支持JSON格式和函数调用方式。
开发者现在可以通过文本格式JSON和函数调用来运用模型的视觉识别和分析功能,生成的JSON代码片段可用于自动化连接应用中的操作,如发邮件、发帖、购物等。OpenAI建议在执行这类操作前先设置用户确认流程。
价格方面,本次发布的GPT-4-Turbo正式版和之前的 GPT-4-Turbo“预览版 保持一致:输入:$10.00 / 100万 tokens;输出:$30.00 / 100万 tokens; 读图:最低$0.00085 /图。
OpenAI发言人表示,在过去开发者需要调用不同的模型来处理文本和图像信息,而GPT-4 Turbo with Vision则将两者合二为一,极大简化了开发流程,同时可以分析图像和文本并应用推理。
OpenAI还重点介绍了客户使用GPT-4 Turbo with Vision的几个案例,如Cognition的AI编程助手——Devin,由GPT-4 Turbo提供支持,利用视觉功能来执行各种编程任务。
健康健身应用程序Healthify使用GPT-4 Turbo with Vision 扫描用户上传的饮食照片,通过图像识别提供营养分析。
英国初创公司TLDraw使用 GPT-4 Turbo with Vision 为其虚拟白板提供支持,并将用户的绘图转换为功能网站:
目前,GPT-4 Turbo with Vision尚未应用于ChatGPT或开放给大众使用,不过 OpenAI暗示该功能即将登陆ChatGPT。
从网友评价来看,有网友对于将视觉理解能力融入API表示赞赏,认为API中有了视觉识别功能很酷。
也有网友对于OpenAI在推文中用了“majorly improved”(显著改善)这一词表达了质疑,让OpenAI好好解释一下什么是显著改善。
也有网友称,请下一条推文发布和GPT-5有关的内容,否则就别发了。
当然,网友的评价里也少不了和Claude 3的比较,有网友称,现在可以看看到底能不能打败Claude 3 Opus了。