星空体育·(StarSky Sports)官方网站-星空官方认证

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式-星空体育官方网站

新闻资讯
质量为本、客户为根、勇于拼搏、务实创新

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式

日期:2025-04-15 浏览: 

  「我们正从 AI 语音的基础设施层过渡到应用层」,继 24 年 5 月推出后,25 年初 a16z 再次更新了语音 AI 赛道的最新洞察。

  语音是 AI 应用公司的一个关键机遇。作为人类最高频(且信息密度最大)的沟通方式,语音这项基础能力在 AI 时代首次实现「可编程化」。

  对于企业而言,AI 提供了一种技术替代方案来取代人工,具有成本效益、速度更快、可靠性更高,而且通常性能更优。此外,语音智能体使企业能够保持全天候的客户服务,无缝处理咨询、安排预约和处理交易。这有效地消除了传统营业时间的限制,确保了持续的在线可用性,与过去的局限性形成鲜明对比(试想一下,在太平洋时间下午 3 点之后尝试联系一家美国东海岸银行)。

  对于消费者而言,我们预计语音将成为与 AI 交互的最初甚至可能是主要的模式。这种交互可能表现为随时可用的伴侣或导师,或者通过使语言学习等服务更广泛地可用,这些服务以前对许多人来说遥不可及。

  我们目前正从AI 语音的基础设施层过渡到应用层。随着 AI 模型的不断进步,语音将成为一个关键的切入点,而不是最终产品本身。我们特别看好那些利用这种「语音优先」方法来解锁更广阔平台机遇的初创公司。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图1)

  Character 推出语音通话功能(在测试版中,三百万用户拨打了 2000 万通电话)

  模型开发的持续进步简化了基础设施「堆栈」,显著降低了语音智能体的延迟并提升了性能。近半年来,这些改进主要体现在新一代对话模型中。

  这些对话模型的成本效益也日益显著。例如,OpenAI 于 2024 年 12 月大幅降低了 GPT-4o 实时 API 的价格,输入价格降低了 60%(至每百万 tokens 40 美元),输出价格降低了 87.5%(至每百万 tokens 2.50 美元)。GPT-4o mini 现在也可实时部署使用。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图2)

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图3)

  语音智能体在对话质量(包括延迟、可打断性和情感表达)方面取得了显著进展,其性能已达到甚至超越传统业务流程外包/呼叫中心水平。

  对于中小型企业和大型企业而言,智能体产品能以极快的速度帮助其拓展业务,因为它们可以直接用技术替代人力资源。

  然而,由于市场准入门槛相对较低,传统企业在应用这些产品时可能会面临挑战。上市速度、执行力以及后续的产品迭代是成功的关键。

  但随着模型成本的降低,这种定价模式正面临越来越大的压力,并导致供应商之间的价格竞争。

  语音智能体市场在 2024 年下半年爆炸性增长。Cartesia 的数据显示,最近一届 Y Combinator (YC) 创业营中,有 22% 的公司专注于语音技术开发。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图4)

  在 2024 年,我们看到多个层次的对话语音技术公司吸引了资金和关注,包括:

  尤其对于大型企业,我们很少看到从完全人工接听电话到完全 AI 接听电话的直接转变。创始人通常会找到一个「切入点」,从处理一小部分客户呼叫开始——(希望)这可以随着时间的推移扩展到处理更多的电话类型和工作流程。我们看到的切入点包括以下这些:

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图5)

  这些电话原本会转到语音信箱。语音智能体至少能收集(或共享)更多信息,并安排人工回拨。

  更进一步,如果语音智能体能与日程安排软件、客户关系管理系统等集成,甚至可以直接为客户完成预订或交易。

  这类外呼电话以往因成本过高而难以实施。借助 AI,任何产生的收益都可视为额外利润。

  需要进行深度集成,例如,客户只需上传包含电话号码的电子表格即可启动外呼流程。

  企业在非客户导向的内部电话沟通上耗费大量时间,例如与供应商、合作伙伴之间的联络,常常面临漫长的等待。

  即使语音智能体仅能完成简单的 IVR 导航和转接,也能显著提升效率,降低风险。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图6)

  语音助手最自然的早期应用类别通常是在呼叫中心或外包服务(BPO)上已有较高支出的领域。如果电话作为本地员工的日常工作:(1)除非有大量员工专门负责电话沟通,否则现有痛点或潜在收益通常不足以推动变革;(2)也很难量化实施效果或成本节约,从而难以提出有力的论证。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图7)

  这些主要领域(金融服务、B2C、B2B、政府和医疗保健)可能会有各自的核心供应商,类似于它们各自的记录系统。

  除了呼叫中心应用,我们还观察到企业愿意为用于辅导或培训的 AI 语音助手付费,尤其是在高薪职位领域。在这些行业中,高度仿真的语音助手可以作为模拟器,显著提升员工的实际工作表现,从而替代部分人力成本(如销售教练)或效果不佳的培训软件。

  自 2020 年以来,Y Combinator 已经孵化了 90 家语音智能体公司,且这一趋势正在加速,最新的尚未完全公布的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在过去一年内转型进入语音智能体领域的。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图8)

  YC 孵化的语音助手项目主要集中在 B2B (约 69%) 和医疗保健 (约 18%) 领域,消费类应用占比相对较小 (约 13%)。

  在 B2B 领域,金融科技 (16.9%) 和运营 (主要为客户支持,12.4%) 是最常见的子行业。在医疗保健领域,语音助手的应用方向分为前台(面向患者)和后台(面向药房、保险等),重点关注普通人类医学 (11.2%)、牙科 (3.4%)、兽医 (2.2%) 和物理治疗 (1.1%)。

  成本降低:语音助手在保持与人工相似成功率的前提下,能够降低 50% 以上的成本(通常意味着通话受到约束!) .

  客户目标:客户希望大幅削减或重新分配人力资源。由于内部对 AI 的怀疑态度,投资回报率需要非常可观。

  极端情况:对于客户而言,通话至关重要,愿意支付高额费用以确保接通或完成,但对于呼叫方而言,允许一定程度的错误或失败。

  初期策略:许多客户从非工作时间/过载呼叫或「次级」呼叫开始,对性能要求较低。

  成本关键:在利润微薄的行业中,通话是至关重要且占比很高的成本(例如汽车餐厅)。

  中小企业/中型市场:语音助手产品易于集成到 VoIP 或其他软件中,并且设置是自助式的。

  大型企业:早期更复杂的集成实际上可以形成护城河,因为呼叫并非如此。或者,早期集成复杂度较低,并具有自然的「先着陆后扩张」潜力。

  将 AI 语音智能体应用于工作面试,看似是一个冷门方向。这主要是因为面试过程复杂(需要与人类面试官相媲美),且对用户体验要求很高(需要确保良好的候选人体验)。然而,我们已经看到一些初创公司在该领域取得了显著的早期进展。以下是来自客户的一些洞见:

  对于人力资源公司(尤其是那些服务于高流量、低至中等技能岗位的公司,例如拥有 43 家上市公司客户,年收入达 6500 亿美元的企业),招聘压力尤为显著。在这些场景下,AI 面试可以有效地替代传统的电话筛选,甚至承担更多的流程。原因如下:

  候选人接受度高:候选人通常更愿意尝试新的求职方式,包括与 AI 进行面试。与传统流程相比,AI 面试可能更具吸引力。

  按结果付费模式:人力资源公司的商业模式通常与推荐的候选人数量或最终成功入职的人数挂钩。因此,他们有强烈的意愿提升候选人质量和数量。

  许多 AI 面试产品的表现已经达到甚至超过了人类招聘人员的水平,主要得益于以下几个方面:

  评估一致性:AI 的评估标准始终如一。即使招聘需求发生变化,客户也可以轻松地重新评估之前的面试记录。

  专业知识:AI 通常能够更准确地评估技术或职位相关的答案,避免了因招聘人员经验不足而导致的误判。

a16z发布2025AI语音图谱:语音将成为与AI交互的主要模式(图9)

  起初,按分钟计费的定价模式曾被多家公司广泛采用。然而,随着模型成本的持续降低,这种模式的吸引力正逐渐减弱。由于客户敏锐地察觉到成本的降低,他们也期望享受到更优惠的定价。展望未来,什么样的定价模式将会更受青睐?预计可能会采用平台费用与基于使用量的组合模式。在哪些特定情况下,可以合理地收取实施费用或设定最低使用量门槛?

  没有任何企业或行业完全依赖电话——电子邮件、网络聊天、短信等都是重要的沟通渠道。公司应该多快扩展到电话以外的其他方式?是先完整捕捉一个工作流程更好,还是先处理所有电话?

  许多语音助手宣传其最终愿景是取代其类别中的 xMS(编者注:即各类型「记录系统软件」,用于存储和管理企业核心数据,例如客户关系管理 (CRM) 系统等)。在什么类别中这实际上是可能的/可能发生的?如果星空体育网站 星空体育首页许多企业已经为处理电话支付的费用超过了他们为 xMS 支付的费用,这是否重要?

  许多早期的语音助手来自于高度技术化的团队,他们在被吸引到某个领域/市场后,付出了努力去学习。随着技术壁垒的降低,这是否会变成一个市场推广的游戏,技术能力较弱但行业专业知识更丰富的团队会占据优势?这在不同领域会有什么不同的表现?

  一些企业可能更喜欢使用通用平台构建自己的 AI 语音智能体,而不是使用垂直的、特定于市场的解决方案。在哪些行业和规模中,这种「自建」方法最有可能?垂直解决方案如何服务于可能更喜欢单一供应商的跨垂直企业?

  AI 语音智能体在情感维度上展现出超越人类的潜力。它们拥有更强的专注力、同理心和耐心,且理论上可以提供无限时长的服务。在某些特定领域,这种优势尤其能够帮助企业与客户建立更深层次的情感连接。然而,目前该领域的潜力尚未得到充分挖掘。我们期待更多创业者能够在关键垂直领域围绕这一主题进行创新,构建更具情感价值的客户关系。