对话声网：实时交互正催生AI新赛道

采购
企业
产品
资讯
合作
展会

搜索高级搜索
新手帮助

热门产品分类：

您现在的位置: > 广搜网 > 焦点新闻 >对话声网：实时交互正催生AI新赛道

对话声网：实时交互正催生AI新赛道

来源：广搜网日期：2025/3/10 21:37:05 浏览次数：我要收藏

对话声网：实时交互正催生AI新赛道

华尔街见闻

作者 | 刘宝丹

编辑 | 周智宇

年初以来，DeepSeek引发的热潮正在推动AI行业加快落地，作为AI Infra公司，声网无疑是AI落地的重要推力。

“数据不能分享，只能说超出预期。”声网AI RTE（Real-Time Engagement实时互动）产品线负责人姚光华对华尔街见闻表示，公司在除夕当日开放了对话式AI引擎Private Beta版本的邀请测试，新增的客户超出预期，而且都是头部的客户。

近日，声网正式发布了对话式AI引擎，凭借650ms超低延时响应、优雅打断、全模型适配等五大能力，对话式AI引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。同时，对话式AI引擎的价格也更为优惠，1分钟不到1毛钱，只需0.098元/分钟。

这是全球首个对话式AI引擎，声网产品负责人和利鹏表示，AI大模型推动了人和机器交互，对于RTE赛道是更大的扩展。之前大模型都是文字，现在通过RTE让大模型能够听懂看懂，把场景变得更丰富，会有更多的应用落地。“AI的机遇会比移动互联网更大。”

声网成立于2014年，主要提供实时音视频互动技术。2024年Q4，声网母公司Agora实现营收3445万美元，同比增长3.6%。目前，声网已将AI作为公司一号工程，进行大力布局和投入。

AI时代正在加速到来，声网要想抓住这个几十年难得一见的机遇，实现跨越式发展，必须全力以赴。

抢占AI机遇

问：这一波AI浪潮里，声网扮演的是什么角色？

和利鹏：声网是AI Infra的一部分。之前大模型都是文字输入，将来我们要让大模型更懂你，能收文字，能听到，还能看到你，一维二维三维的信息让它更理解你，交流起来会有更多的输出。

问：声网现在的核心竞争壁垒是什么？

和利鹏：声网之前是做人和人的实时交互，这次是人和机器的实时交互，内部基于之前的技术优势快速适应这种变化，调整我们的算法，在之前的能力上延展。

如果大模型厂商直接提供多模态，我们也支持，跟他们是合作关系。海外比较好的一点就是产业链分工比较明确，都有各自的优势。Open AI选择了我们的兄弟公司，国内几个模型厂商其实也选择了声网。

大模型从头去做交互的话，要求还是挺高的，多模态使用另外一种互联网技术，会造成延时，可靠性不能保证。声网在每个设备上都有端，我们适配了上万个设备，假设大模型厂商现在去做，需要重新适配这些端，对他们来说，成本比较高。

问：拓展AI新业务，声网内部能够给到多大的权限？有多大的魄力去做这件事情？

和利鹏：这个肯定是一号工程，老板直接上。

这个赛道不是一波热潮，而是一个变革，我们肯定要抓住这个机会，声网之前就已经在这方面有了一些积累。简单来说，AI投入肯定是公司的战略，我们看到机会就会大力投入。

问：现在DeepSeek很火，您认为，企业接入DeepSeek是作为蹭热度还是长期战略投入？

和利鹏：我们经历过很多轮热点，AI的机遇会比移动互联网更大，时机也基本上成熟了，客户确实有实际需求，比如教育需求很明确，我们已经在对接陪伴类和工具类的需求。加入AI以后能够帮到企业降本，DeepSeek成本比较低，准确性也比较高，传统企业很多都是重复性的劳动，替代会越来越多。

问：你们有没有尝试和DeepSeek沟通和合作？

和利鹏：DeepSeek何时会推出自有多模态能力，取决于他们的优先级，但若聚焦实时交互领域，他们很可能需要与我们合作。将来肯定每个大模型都有自己的优势和强项，我们的对话式引擎就是根据场景实时调度，这是我们产品设计理念的灵魂。

AI需求超预期

问：对话式AI引擎目前的市场反馈怎么样？

姚光华：我们除夕开放Private Beta版本邀请测试，数据不能分享，只能说超出预期。我们会把没有公开的直接发给存量客户，存量客户是点赞的。新增的客户超出预期，点赞的数量也是非常Solid，都是非常头部的客户。

问：春节到现在，声网的客户类别有哪些变化？

和利鹏：我们内部有十几种场景，最大的就是陪伴类，包括社交娱乐，基于IoT设备的小孩陪伴，教育场景的数字人，外呼和AI面试也比较多。

姚光华：有个新需求是海外打电话订餐，用户点外卖，对面是个AI机器人，然后点餐，直接在餐厅系统下单。

和利鹏：我们是尽量提供能力，合作伙伴在做创新场景。要说目前AI爆款应用，现在还没有，我的理解是，目前处在创新的前期，大家都在试用，哪一天爆款出来，就会是快速地增长。

问：如何看待实时互动的市场空间？

和利鹏：AI大模型推动了人和机器交互，对于RTE赛道是更大的扩展。之前大模型都是文字，现在通过RTE让大模型能够听懂看懂，也是把场景变得更丰富了，会有更多的应用落地。

我们认为，这次是人机交互界面的变革，之前我们一直用键盘，手机没有触摸屏，下一个变革应该就是所有触摸式和键盘都变成语音式，现在我们已经看到了一些苗头，很多之前做传统软件的公司，现在都在重新写自己的代码，要么加智能助手，要么加音频输入。人机交互的界面都变了，语音交互就得是实时的，这是一个比较大的AI赛道的变化。

我们也会看到，现在的模型是在云端，将来会有端云配合，声网也有自己比较实时的网络，需要更好地连通和覆盖，这些会起到让AI行业快速发展、快速迭代的作用。

问：1分钟不到1毛钱，将来市场容量的前景多大？

和利鹏：人和人交互只有那么多人，人和机器交互，机器比人还多，赛道空间就更大了，对于我们来说是一个比较大的增长空间。至于是不是能够很快收回成本，我们倒觉得没有，AI是一个比较长期的、大的机会，看到这个机会肯定要快速进去。达到一定预期以后，我们肯定会有比较好的收入。

问：价格还有下降的空间吗？

和利鹏：我们未必会降价，因为首先要保证体验越来越好，将来带来情感价值，我们反而是想把质量进一步提升，让用户觉得更值。当然，大家要是觉得成本比较贵，我们到时候再去考虑，但目前的情况下，我们要把质量不断提得更高。

姚光华：因为我们已经把价格定得很便宜了。

AI幻觉不能消灭，可以减少

问：对话式AI引擎从立项到落地的过程中，都碰到哪些问题和瓶颈，怎么解决的？

姚光华：对话式引擎牵涉到的部门比较多，包括算法、体验、工程化、测试、产品等等，过年的时候专门找了一个小黑屋，所有人在里面加班，一共应该有十几个人。DeepSeek出来之后，我们做AI的人全部都在加班，看到DeepSeek给中国科技界带来的正向影响，我们也想参与到这种浪潮中。

和利鹏：现在的产品开发过程都是动态的，潜在的用户不断反馈，也在和一些友商PK。我们的产品需要快速反应、快速迭代。声网成立至今11年，一直都在打造这种开发能力，特别是实时互动方面，我们还是很有信心的。

问：你们有没有遇到过比较大的挑战？

姚光华：即时互动是按照毫秒压缩，特别是响应延迟，我们做到1秒钟，接下来就要再压缩。我们给出一个清晰的目标，要做到世界一流，然后最终把体验做出来。

和利鹏：对话式AI强调体验，包括延迟、响应打断、人声的锁定。之前声网实现了人和人之间的即时交流，这次是人和机器的交流，交流模式发生了变化，技术要求是不一样的。我和你交流只需要分配网络，但对面是机器的话，可能会有打断和快速响应，在落地工程化方面还是有很多的挑战。

姚光华：AI用户体验相当于无人区，没人知道衡量哪几个指标，比如，锁定人声这一点之前根本没人提过，是客户提出来的，不想失去实时打断的能力，就要把对话过滤做出来，之前有没有降噪基础，没有的话就要开发一个新的。我们是把认知变成标准，把标准变成指标，然后呈现到今天发布的产品当中。

问：Manus过代码构成整个网络步骤，这种语音上的Agent和图文上的Agent有什么区别？

和利鹏：人的交互模式肯定是多模态的，实时互动是很重要的一部分，随着行业的发展，我们就在想能不能不输入文字？语音包含情绪，所以信息会更丰富。我觉得目前是这种形态，是不是可以用摄像头交互，让摄像头完成一些事情？可能让AI把简历过一下，打开摄像头和麦克风以后还能不能做其他的事情？这些是我们比较关注的。

现在来看，Agent的形态肯定非常多，输入方式也非常多，将来可能把语音也会加入进去，或者多个人同时去做一件事情。行业发展得太快，我们是把基础能力准备好，让大家在里面去做创新的场景。

姚光华：AI引擎产品之所以叫引擎，就是因为我们不做Agent，只想构建对话式，将来会有其他的调整。我们觉得这是一种颠覆性的交互方式，对话的情绪价值如果能够发展得非常好，Humanlike做得非常好，就是超越工具以外的一个陪伴的东西，可能是一个宠物，介于宠物和朋友之间。

问：Minimax、ChatGPT等对话产品都有严重的幻觉问题，怎样消除幻觉？

和利鹏：幻觉减少肯定是模型自己本身要迭代的，除此之外，我们要看到周围的噪音，如果让你的声音不清楚，也会造成误解。声网需要锁定人的声音，把背景的声音都清除，让原始声音很干净。

幻觉这个东西不可消灭，可以减少，就像今天的采访，人和人的交流也会有误解，但你发现误解的话，通过告知更多的上下文让对方知道自己说错了。人和人之间交流都会有幻觉，我们的知识背景不一样，你的理解和我的理解也不一样，但通过几次交流，大概知道我是什么意思。

姚光华：我也这么认为，模型的参数量更小，聚焦在一个垂类的话，上下文的不断增多会让幻觉减少。

今后我们都在推理参与决策，这是最核心的，看到幻觉产生的路径，然后告诉对方，这个东西你想错了，然后就会重新开始想这个事情，参与最终的决策，这是消除幻觉的唯一路径。

问：这就减少了实时交互的可能性，就像自动驾驶，等着思维链的输出不太可能。

和利鹏：我们也在讨论，一定要分场景。有些场景是实时的，不能有等待的时间。我们现在也接到具身机器人的需求，延时的要求很高，包括客服外呼等等，不能等半天才回答，所以这确实是比较细分的，不是所有场景都要用声网，还是要找到最合适的，就是延时、交互、陪伴等等。

最近我也看到智能硬件的需求确实比较多，我们跟芯片厂商合作，打造出不同的形状，但里面都是对话式AI。孩子用了DeepSeek以后变成了十万个为什么，小孩希望快速互动，不在于答案准不准确，就是希望能玩起来。

>> 更多相关信息：

在百度中搜索对话声网：实时交互正催生AI新赛道

在好搜中搜索对话声网：实时交互正催生AI新赛道

在必应中搜索对话声网：实时交互正催生AI新赛道

在搜狗中搜索对话声网：实时交互正催生AI新赛道

>> 关于企业公告的相关资讯

广搜网

QQ：2977197366

请所有会员信息发布时严格遵守国家互联网信息规定，我们拒绝任何违规信息！投诉邮箱：2977197366@qq.com