对话声网:实时交互正催生AI新赛道
来源:广搜网 日期:2025/3/10 21:37:05 浏览次数: 我要收藏
对话声网:实时交互正催生AI新赛道
华尔街见闻
作者 | 刘宝丹
编辑 | 周智宇
年初以来,DeepSeek引发的热潮正在推动AI行业加快落地,作为AI Infra公司,声网无疑是AI落地的重要推力。
“数据不能分享,只能说超出预期。”声网AI RTE(Real-Time Engagement实时互动)产品线负责人姚光华对华尔街见闻表示,公司在除夕当日开放了对话式AI引擎Private Beta版本的邀请测试,新增的客户超出预期,而且都是头部的客户。
近日,声网正式发布了对话式AI引擎,凭借650ms超低延时响应、优雅打断、全模型适配等五大能力,对话式AI引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。同时,对话式AI引擎的价格也更为优惠,1分钟不到1毛钱,只需0.098元/分钟。
这是全球首个对话式AI引擎,声网产品负责人和利鹏表示,AI大模型推动了人和机器交互,对于RTE赛道是更大的扩展。之前大模型都是文字,现在通过RTE让大模型能够听懂看懂,把场景变得更丰富,会有更多的应用落地。“AI的机遇会比移动互联网更大。”
声网成立于2014年,主要提供实时音视频互动技术。2024年Q4,声网母公司Agora实现营收3445万美元,同比增长3.6%。目前,声网已将AI作为公司一号工程,进行大力布局和投入。
AI时代正在加速到来,声网要想抓住这个几十年难得一见的机遇,实现跨越式发展,必须全力以赴。
抢占AI机遇
问:这一波AI浪潮里,声网扮演的是什么角色?
和利鹏:声网是AI Infra的一部分。之前大模型都是文字输入,将来我们要让大模型更懂你,能收文字,能听到,还能看到你,一维二维三维的信息让它更理解你,交流起来会有更多的输出。
问:声网现在的核心竞争壁垒是什么?
和利鹏:声网之前是做人和人的实时交互,这次是人和机器的实时交互,内部基于之前的技术优势快速适应这种变化,调整我们的算法,在之前的能力上延展。
如果大模型厂商直接提供多模态,我们也支持,跟他们是合作关系。海外比较好的一点就是产业链分工比较明确,都有各自的优势。Open AI选择了我们的兄弟公司,国内几个模型厂商其实也选择了声网。
大模型从头去做交互的话,要求还是挺高的,多模态使用另外一种互联网技术,会造成延时,可靠性不能保证。声网在每个设备上都有端,我们适配了上万个设备,假设大模型厂商现在去做,需要重新适配这些端,对他们来说,成本比较高。
问:拓展AI新业务,声网内部能够给到多大的权限?有多大的魄力去做这件事情?
和利鹏:这个肯定是一号工程,老板直接上。
这个赛道不是一波热潮,而是一个变革,我们肯定要抓住这个机会,声网之前就已经在这方面有了一些积累。简单来说,AI投入肯定是公司的战略,我们看到机会就会大力投入。
问:现在DeepSeek很火,您认为,企业接入DeepSeek是作为蹭热度还是长期战略投入?
和利鹏:我们经历过很多轮热点,AI的机遇会比移动互联网更大,时机也基本上成熟了,客户确实有实际需求,比如教育需求很明确,我们已经在对接陪伴类和工具类的需求。加入AI以后能够帮到企业降本,DeepSeek成本比较低,准确性也比较高,传统企业很多都是重复性的劳动,替代会越来越多。
问:你们有没有尝试和DeepSeek沟通和合作?
和利鹏:DeepSeek何时会推出自有多模态能力,取决于他们的优先级,但若聚焦实时交互领域,他们很可能需要与我们合作。将来肯定每个大模型都有自己的优势和强项,我们的对话式引擎就是根据场景实时调度,这是我们产品设计理念的灵魂。
AI需求超预期
问:对话式AI引擎目前的市场反馈怎么样?
姚光华:我们除夕开放Private Beta版本邀请测试,数据不能分享,只能说超出预期。我们会把没有公开的直接发给存量客户,存量客户是点赞的。新增的客户超出预期,点赞的数量也是非常Solid,都是非常头部的客户。
问:春节到现在,声网的客户类别有哪些变化?
和利鹏:我们内部有十几种场景,最大的就是陪伴类,包括社交娱乐,基于IoT设备的小孩陪伴,教育场景的数字人,外呼和AI面试也比较多。
姚光华:有个新需求是海外打电话订餐,用户点外卖,对面是个AI机器人,然后点餐,直接在餐厅系统下单。
和利鹏:我们是尽量提供能力,合作伙伴在做创新场景。要说目前AI爆款应用,现在还没有,我的理解是,目前处在创新的前期,大家都在试用,哪一天爆款出来,就会是快速地增长。
问:如何看待实时互动的市场空间?
和利鹏:AI大模型推动了人和机器交互,对于RTE赛道是更大的扩展。之前大模型都是文字,现在通过RTE让大模型能够听懂看懂,也是把场景变得更丰富了,会有更多的应用落地。
我们认为,这次是人机交互界面的变革,之前我们一直用键盘,手机没有触摸屏,下一个变革应该就是所有触摸式和键盘都变成语音式,现在我们已经看到了一些苗头,很多之前做传统软件的公司,现在都在重新写自己的代码,要么加智能助手,要么加音频输入。人机交互的界面都变了,语音交互就得是实时的,这是一个比较大的AI赛道的变化。
我们也会看到,现在的模型是在云端,将来会有端云配合,声网也有自己比较实时的网络,需要更好地连通和覆盖,这些会起到让AI行业快速发展、快速迭代的作用。
问:1分钟不到1毛钱,将来市场容量的前景多大?
和利鹏:人和人交互只有那么多人,人和机器交互,机器比人还多,赛道空间就更大了,对于我们来说是一个比较大的增长空间。至于是不是能够很快收回成本,我们倒觉得没有,AI是一个比较长期的、大的机会,看到这个机会肯定要快速进去。达到一定预期以后,我们肯定会有比较好的收入。
问:价格还有下降的空间吗?
和利鹏:我们未必会降价,因为首先要保证体验越来越好,将来带来情感价值,我们反而是想把质量进一步提升,让用户觉得更值。当然,大家要是觉得成本比较贵,我们到时候再去考虑,但目前的情况下,我们要把质量不断提得更高。
姚光华:因为我们已经把价格定得很便宜了。
AI幻觉不能消灭,可以减少
问:对话式AI引擎从立项到落地的过程中,都碰到哪些问题和瓶颈,怎么解决的?
姚光华:对话式引擎牵涉到的部门比较多,包括算法、体验、工程化、测试、产品等等,过年的时候专门找了一个小黑屋,所有人在里面加班,一共应该有十几个人。DeepSeek出来之后,我们做AI的人全部都在加班,看到DeepSeek给中国科技界带来的正向影响,我们也想参与到这种浪潮中。
和利鹏:现在的产品开发过程都是动态的,潜在的用户不断反馈,也在和一些友商PK。我们的产品需要快速反应、快速迭代。声网成立至今11年,一直都在打造这种开发能力,特别是实时互动方面,我们还是很有信心的。
问:你们有没有遇到过比较大的挑战?
姚光华:即时互动是按照毫秒压缩,特别是响应延迟,我们做到1秒钟,接下来就要再压缩。我们给出一个清晰的目标,要做到世界一流,然后最终把体验做出来。
和利鹏:对话式AI强调体验,包括延迟、响应打断、人声的锁定。之前声网实现了人和人之间的即时交流,这次是人和机器的交流,交流模式发生了变化,技术要求是不一样的。我和你交流只需要分配网络,但对面是机器的话,可能会有打断和快速响应,在落地工程化方面还是有很多的挑战。
姚光华:AI用户体验相当于无人区,没人知道衡量哪几个指标,比如,锁定人声这一点之前根本没人提过,是客户提出来的,不想失去实时打断的能力,就要把对话过滤做出来,之前有没有降噪基础,没有的话就要开发一个新的。我们是把认知变成标准,把标准变成指标,然后呈现到今天发布的产品当中。
问:Manus过代码构成整个网络步骤,这种语音上的Agent和图文上的Agent有什么区别?
和利鹏:人的交互模式肯定是多模态的,实时互动是很重要的一部分,随着行业的发展,我们就在想能不能不输入文字?语音包含情绪,所以信息会更丰富。我觉得目前是这种形态,是不是可以用摄像头交互,让摄像头完成一些事情?可能让AI把简历过一下,打开摄像头和麦克风以后还能不能做其他的事情?这些是我们比较关注的。
现在来看,Agent的形态肯定非常多,输入方式也非常多,将来可能把语音也会加入进去,或者多个人同时去做一件事情。行业发展得太快,我们是把基础能力准备好,让大家在里面去做创新的场景。
姚光华:AI引擎产品之所以叫引擎,就是因为我们不做Agent,只想构建对话式,将来会有其他的调整。我们觉得这是一种颠覆性的交互方式,对话的情绪价值如果能够发展得非常好,Humanlike做得非常好,就是超越工具以外的一个陪伴的东西,可能是一个宠物,介于宠物和朋友之间。
问:Minimax、ChatGPT等对话产品都有严重的幻觉问题,怎样消除幻觉?
和利鹏:幻觉减少肯定是模型自己本身要迭代的,除此之外,我们要看到周围的噪音,如果让你的声音不清楚,也会造成误解。声网需要锁定人的声音,把背景的声音都清除,让原始声音很干净。
幻觉这个东西不可消灭,可以减少,就像今天的采访,人和人的交流也会有误解,但你发现误解的话,通过告知更多的上下文让对方知道自己说错了。人和人之间交流都会有幻觉,我们的知识背景不一样,你的理解和我的理解也不一样,但通过几次交流,大概知道我是什么意思。
姚光华:我也这么认为,模型的参数量更小,聚焦在一个垂类的话,上下文的不断增多会让幻觉减少。
今后我们都在推理参与决策,这是最核心的,看到幻觉产生的路径,然后告诉对方,这个东西你想错了,然后就会重新开始想这个事情,参与最终的决策,这是消除幻觉的唯一路径。
问:这就减少了实时交互的可能性,就像自动驾驶,等着思维链的输出不太可能。
和利鹏:我们也在讨论,一定要分场景。有些场景是实时的,不能有等待的时间。我们现在也接到具身机器人的需求,延时的要求很高,包括客服外呼等等,不能等半天才回答,所以这确实是比较细分的,不是所有场景都要用声网,还是要找到最合适的,就是延时、交互、陪伴等等。
最近我也看到智能硬件的需求确实比较多,我们跟芯片厂商合作,打造出不同的形状,但里面都是对话式AI。孩子用了DeepSeek以后变成了十万个为什么,小孩希望快速互动,不在于答案准不准确,就是希望能玩起来。