GPT-4o 现货变期货,是什么在拖 OpenAI 的后腿

科技 2024-07-17 09:09 阅读:2

GPT-4o 现货变期货,是什么在拖 OpenAI 的后腿 第1张

RTC 技术是实时 AI 普及的关键之一。

作者 | ray编辑| 靖宇

Her,正从电影,走向现实。

今年 5 月,OpenAI 发布最新 AI 多模态大模型 GPT-4o。相比此前的 GPT-4 Turbo,GPT-4o 速度快了两倍,成本低了一半,实时的 AI 语音互动的平均时延,相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4),更是达到了 320 毫秒——与人类日常对话响应速度几乎一致。

不仅是效率的提升,对话中的情感分析也成为了此次产品更新的特色之一。在与主持人的对话中,AI 可以听出他说话时的「紧张」,并且针对性的提出了深呼吸的建议。

OpenAI,正成为大模型时代硅基的「造物主」。

然而,发布会很震撼,现实却很骨感。产品落地上,这场大模型技术革命的发起方 OpenAI,正逐渐变得像一家「期货」公司。

主打全能、低时延的 GPT-4o 发布后,实时音视频功能的上线迄今仍在跳票;视频多模态产品 Sora 发布,同样迟迟不见开放。

但这不只是 OpenAI 一家企业的问题——ChatGPT 发布后,国内国产版 ChatGPT 多如过江之鲫,但是真正对标 GPT-4o 的,目前却只有一个商汤的日日新 5.5,进度也同样停留在月内公测。

为什么发布会上,实时多模态大模型距离变革世界只有一步之遥;在真正走向产品化落地的过程中,却总是「现货」变「期权」?

一种新的声音正在浮出水面:在多模态的世界里,或许暴力无奇迹。

01

实时语音,一条

必经的AI 商业化路线

技术的成熟,正助推一个崭新的蓝海产业逐渐成型。

硅谷知名风投机构 a16z 数据显示,全球用户量 Top50 AI 应用中,9 款是陪伴型产品。AI 产品榜数据则显示,今年 5 月 AI 伴侣的访问量高达 4.32 亿,同比增长 13.87%。

高需求、高增速、高市场空间,AI 陪伴,带来的是商业模式与人机交互的双重变革。

商业的成熟,也在反向倒逼技术的不断进步。仅以今年上半年为节点,实时 AI 语音技术在短短六个月,就已经发生了三次迭代。

第一波技术浪潮的代表性产品是 Pi。

今年 3 月,初创企业 Inflection AI 更新了面向个人用户的情感聊天机器人 Pi。

Pi 的产品界面非常简洁,文本+对话框是核心交互界面,但也增加了语音读取,电话等 AI 语音功能的设计。

实现这种语音交互,Pi 依靠的是传统的 STT-LLM- TTS三步走的语音技术。其特点是技术成熟,但反应慢,缺乏对语气等关键信息的理解,无法做到真正的实时语音对话。

与之同期的另一款特色产品是 Call Annie。相比 Pi,Call Annie 有完整的视频通话体验设计,除了接挂电话的设计之外,听话功能还可以最小化之后切入其他 App,并支持四十多种对话角色设定。

然而它们都有着共同的技术问题——高时延与情感色彩缺乏。时延上,即是行业内最先进的 OpenAI,也会出现 2.8 秒到 5.4 秒的延迟。情感上,则会出现在交互中丢失如音调、音高、语速等信息,更无法做到输出笑声、唱歌声等高级语音表达

在此之后,新一波技术的代表则是一款名叫 EVI 的产品。

这款产品在今年 4 月由 Hume AI 推出,并为 Hume AI 带来了 5000 万美元的 B 轮融资。

产品设计上,Hume AI 在底层算法环节推出了 Playground 功能,用户可以自己选择配置选择大模型,除了官方默认,还可以选择像 Claude、GPT-4 Turbo 等。但不同之处是语音带上了情感,因此在表达上,也有了节奏、语调的变化。

实现这一功能,主要依靠在传统的 STT-LLM- TTS 三步走环节中,加入新的 SST算法。SST 能通过广泛的数据收集和先进的统计模型,精准绘制人类情感的全谱图,揭示人类情感状态之间的连续性,使得 EVI 具备很多拟人化的特色功能。

情感进步的代价,则是时延的进一步牺牲,与 EVI 对话,用户需要等待的时间,相较 Pi 与 Call Annie 进一步增加。

到了 5 月中旬 GPT-4o 发布,融合多模态技术成为这一时期的技术方向标。

与过去的三步式语音交互产品相比,GPT-4o 是一款跨文本、视觉和音频端到端训练的新模型,这意味着所有输入和输出都由同一个神经网络处理。

时延问题也因此被极大改善。OpenAI 官宣,GPT-4o 的实时语音交互,可以做到最快 232 毫秒、平均 320 毫秒的响应音频输入。情感上,用户与 AI 的交互也变得越来越有智能属性,语速变化、情感理解得到实现。

产品层面,人类与 AI 谈恋爱、AI 替代盲人看世界也因此成为可能。

前不久推出语音电话功能、2024 年硅谷引人瞩目的新星——Character.ai,就成为了这次技术浪潮中的最大受益者。

在 Character.ai,用户有机会在超逼真的角色扮演中与动漫人物、电视名人和历史人物的摹本发短信。新奇的设定带来了产品用户数量的暴增,根据 Similarweb 的数据,Character.ai 每秒可以处理 20000 个 AI 推理请求,5 月的访问量高达 2.77 亿。

行业经验的积累,全球化客户的打磨,更是技术领先的佐证。据陈若非介绍,声网自研的 SD-RTN™ 实时传输网络覆盖了全球 200 多个国家与地区,音视频的全球端到端延迟平均达到 200ms。针对网络环境的波动,声网的智能路由技术与抗弱网算法,可以保障通话的稳定性与流畅性。针对终端设备的差异性,声网更是积累了全球上亿 App 预装以及对复杂环境适配积累的 know-how。

技术领先之外,行业经验更是无形的壁垒。

事实上,这也是为什么这些年来,RTC 行业商业格局较为稳定的原因:做好 RTC,依靠的,从来不是大模型式的「大力出奇迹」。

日积月累的深耕细作,才是语音延迟极致优化和实时语音交互能普遍商用的唯一途径。

而从这一角度来看,AI实时语音交互,是一场在想象力以及难度上都不应被低估的战争。

它的未来——算法、审核、RTC 一关一关都要过。要走完这漫长的道路,既要仰望技术的星空,更要脚踏工程化的实地。

*头图来源:视觉中国