GPT-4o 现货变期货，是什么在拖 OpenAI 的后腿

GPT-4o 现货变期货，是什么在拖 OpenAI 的后腿第1张

RTC 技术是实时 AI 普及的关键之一。

作者 | ray编辑| 靖宇

Her，正从电影，走向现实。

今年 5 月，OpenAI 发布最新 AI 多模态大模型 GPT-4o。相比此前的 GPT-4 Turbo，GPT-4o 速度快了两倍，成本低了一半，实时的 AI 语音互动的平均时延，相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4)，更是达到了 320 毫秒——与人类日常对话响应速度几乎一致。

不仅是效率的提升，对话中的情感分析也成为了此次产品更新的特色之一。在与主持人的对话中，AI 可以听出他说话时的「紧张」，并且针对性的提出了深呼吸的建议。

OpenAI，正成为大模型时代硅基的「造物主」。

然而，发布会很震撼，现实却很骨感。产品落地上，这场大模型技术革命的发起方 OpenAI，正逐渐变得像一家「期货」公司。

主打全能、低时延的 GPT-4o 发布后，实时音视频功能的上线迄今仍在跳票；视频多模态产品 Sora 发布，同样迟迟不见开放。

但这不只是 OpenAI 一家企业的问题——ChatGPT 发布后，国内国产版 ChatGPT 多如过江之鲫，但是真正对标 GPT-4o 的，目前却只有一个商汤的日日新 5.5，进度也同样停留在月内公测。

为什么发布会上，实时多模态大模型距离变革世界只有一步之遥；在真正走向产品化落地的过程中，却总是「现货」变「期权」？

一种新的声音正在浮出水面：在多模态的世界里，或许暴力无奇迹。

实时语音，一条

必经的AI 商业化路线

技术的成熟，正助推一个崭新的蓝海产业逐渐成型。

硅谷知名风投机构 a16z 数据显示，全球用户量 Top50 AI 应用中，9 款是陪伴型产品。AI 产品榜数据则显示，今年 5 月 AI 伴侣的访问量高达 4.32 亿，同比增长 13.87%。

高需求、高增速、高市场空间，AI 陪伴，带来的是商业模式与人机交互的双重变革。

商业的成熟，也在反向倒逼技术的不断进步。仅以今年上半年为节点，实时 AI 语音技术在短短六个月，就已经发生了三次迭代。

第一波技术浪潮的代表性产品是 Pi。

今年 3 月，初创企业 Inflection AI 更新了面向个人用户的情感聊天机器人 Pi。

Pi 的产品界面非常简洁，文本+对话框是核心交互界面，但也增加了语音读取，电话等 AI 语音功能的设计。

实现这种语音交互，Pi 依靠的是传统的 STT-LLM- TTS三步走的语音技术。其特点是技术成熟，但反应慢，缺乏对语气等关键信息的理解，无法做到真正的实时语音对话。

与之同期的另一款特色产品是 Call Annie。相比 Pi，Call Annie 有完整的视频通话体验设计，除了接挂电话的设计之外，听话功能还可以最小化之后切入其他 App，并支持四十多种对话角色设定。

然而它们都有着共同的技术问题——高时延与情感色彩缺乏。时延上，即是行业内最先进的 OpenAI，也会出现 2.8 秒到 5.4 秒的延迟。情感上，则会出现在交互中丢失如音调、音高、语速等信息，更无法做到输出笑声、唱歌声等高级语音表达

在此之后，新一波技术的代表则是一款名叫 EVI 的产品。

这款产品在今年 4 月由 Hume AI 推出，并为 Hume AI 带来了 5000 万美元的 B 轮融资。

产品设计上，Hume AI 在底层算法环节推出了 Playground 功能，用户可以自己选择配置选择大模型，除了官方默认，还可以选择像 Claude、GPT-4 Turbo 等。但不同之处是语音带上了情感，因此在表达上，也有了节奏、语调的变化。

实现这一功能，主要依靠在传统的 STT-LLM- TTS 三步走环节中，加入新的 SST算法。SST 能通过广泛的数据收集和先进的统计模型，精准绘制人类情感的全谱图，揭示人类情感状态之间的连续性，使得 EVI 具备很多拟人化的特色功能。

情感进步的代价，则是时延的进一步牺牲，与 EVI 对话，用户需要等待的时间，相较 Pi 与 Call Annie 进一步增加。

到了 5 月中旬 GPT-4o 发布，融合多模态技术成为这一时期的技术方向标。

与过去的三步式语音交互产品相比，GPT-4o 是一款跨文本、视觉和音频端到端训练的新模型，这意味着所有输入和输出都由同一个神经网络处理。

时延问题也因此被极大改善。OpenAI 官宣，GPT-4o 的实时语音交互，可以做到最快 232 毫秒、平均 320 毫秒的响应音频输入。情感上，用户与 AI 的交互也变得越来越有智能属性，语速变化、情感理解得到实现。

产品层面，人类与 AI 谈恋爱、AI 替代盲人看世界也因此成为可能。

前不久推出语音电话功能、2024 年硅谷引人瞩目的新星——Character.ai，就成为了这次技术浪潮中的最大受益者。

在 Character.ai，用户有机会在超逼真的角色扮演中与动漫人物、电视名人和历史人物的摹本发短信。新奇的设定带来了产品用户数量的暴增，根据 Similarweb 的数据，Character.ai 每秒可以处理 20000 个 AI 推理请求，5 月的访问量高达 2.77 亿。

行业经验的积累，全球化客户的打磨，更是技术领先的佐证。据陈若非介绍，声网自研的 SD-RTN™ 实时传输网络覆盖了全球 200 多个国家与地区，音视频的全球端到端延迟平均达到 200ms。针对网络环境的波动，声网的智能路由技术与抗弱网算法，可以保障通话的稳定性与流畅性。针对终端设备的差异性，声网更是积累了全球上亿 App 预装以及对复杂环境适配积累的 know-how。

技术领先之外，行业经验更是无形的壁垒。

事实上，这也是为什么这些年来，RTC 行业商业格局较为稳定的原因：做好 RTC，依靠的，从来不是大模型式的「大力出奇迹」。

日积月累的深耕细作，才是语音延迟极致优化和实时语音交互能普遍商用的唯一途径。

而从这一角度来看，AI实时语音交互，是一场在想象力以及难度上都不应被低估的战争。

它的未来——算法、审核、RTC 一关一关都要过。要走完这漫长的道路，既要仰望技术的星空，更要脚踏工程化的实地。

*头图来源：视觉中国