OpenAI发布最新升级的大模型GPT-4o - 《网络安全与数据治理》（原《信息技术与网络安全》

OpenAI发布最新升级的大模型GPT-4o
可免费开放使用语音对话媲美真人

5月14日消息，在今天凌晨的OpenAI发布会上，最新升级的大模型 GPT-4o正式发布。

GPT-4o的“o”代表“omni”。该词意为“全能”，源自拉丁语“omnis”，在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。

GPT-4o可以实时对音频、视觉和文本进行推理，能处理超过50种不同的语言，并且速度和质量大大提升。

此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，无法识别笑声、歌唱声和情感表达等。

而GPT-4o可以在232毫秒内对音频输入做出反应，甚至还能随意打断，与人类在对话中的反应时间相近，彻底颠覆了以往的“语音助手”。

GPT-4o在现场充当实时翻译也是相当的丝滑，意大利语和英语即听即翻。

最重要的是，GPT-4o还可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，人机交互更加自然、全面了。

GPT-4o的能力还会向免费用户开放，不过会限制数量，免费用户达到数量之后，会自动跳回GPT-3.5。

GPT-4o还将开放相应API给GPT的开发者，价格是GPT-4-turbo的一半，速度却是GPT-4-turbo的两倍，速率限制也高5倍。

官方表示，GPT-4o将会在未来几周内陆续开放。

此外，OpenAI还推出了ChatGPT的桌面版应用，不过目前只有MacOS版本，Windows版要稍晚一些亮相。

Magazine.Subscription.jpg

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部