全新 ChatGPT-4o 模型重大更新 – 能力惊人!支持 API,所有人免费用
OpenAI 在发布会上,推出 ChatGPT 最新旗舰级模型 GPT-4o (这里 o 代表 omni,即全方位),具备了即时音频和视觉处理能力,大幅提升速度,重点是,GPT-4o 还免费开放给所有人!
GPT-4o 能以相当快的速度同时处理文本、音频、视频的分析和回复。也就是说,AI 现在能聆听语音、看图,甚至能看实时的视频内容,并立即给你反馈!同时还有一些情绪的变化,加上还能联网。似乎一瞬间,电影《钢铁侠》里的 Javis 或《Her》的 AI 恋人大概已能成为现实了。
OpenAI 旗下全新的旗舰模型 GPT-4o 已经正式上线 ChatGPT 了,而且免费 (目前免费用户随机分配权限,有频率限制)。这款超级强大的 AI 模型可以实时进行对音频、视频和文本内容的推理,而且最明显的,还有 GPT4o 的速度极快,能让人机交互变得更加自然流畅。
据了解,GPT-4o 对音频的响应速度最快可达 232 毫秒,平均响应时间也仅为 320 毫秒,堪比人类在对话中的反应速度,你就像跟认真说话一样不需傻傻等待,这也让 AI 助手的实用性进入了下一个新的阶段。
- GPT-4o 模型支持免费使用,如你的账户未获得权限,可注册新账号使用
- 支持上传图片进行识别和分析
- 免费用户也支持上传 Excel、PDF 等文档进行分析或总结,并支持生成数据图表
- GPT-4o 让 ChatGPT 支持联网搜索
- 支持使用记忆功能
- 免费用户支持搜索和使用 GPTs,但无法建立
过去 AI 的语音模式需要 3 个模型联合工作,首先第一个 AI 模型将音频转换为文本,再由主 AI 模型处理文本获得结果,最后再将结果文本转回音频。这种方式存在很多缺点,比如 GPT-4 无法直接处理音调、多人对话或背景噪声,也无法生成笑声、歌声,更无法表达出情感的变化。而 GPT-4o 依靠独立实时的多态处理能力,终于做到了!从上面的视频可以看到,它甚至能读懂人们的表情,也像真人一样带有感情去说话。
今天,GPT-4o 在理解和讨论你分享的图片方面比任何现有模型都更出色。例如,你可以拍下外语菜单的照片,与 GPT-4o 对话,让它翻译餐厅菜单内容,了解食物的历史和意义,并获得推荐。在未来的更新中,将实现更加自然的实时语音对话,以及通过实时视频与 ChatGPT 互动的能力。比如,你可以向 ChatGPT 展示一场直播的体育比赛,并请它为你解释规则。我们计划在接下来的几周内推出带有这些新功能的语音模式 Alpha 版,首先向 Plus 用户开放,随后逐步推广。
为了让先进的人工智能在全球范围内更易获取且更有用,GPT-4o 在语言能力方面的质量和速度都得到了提升。ChatGPT 现在还支持超过 50 种语言的注册和登录、用户设置等功能。