AC米兰官网对于未来,Bessemer Venture Partners 认为,浏览器的竞争会更卷、视频生成将在明年进入正式可用状态,以及评估(Evals)与数据溯源将成为 AI 产品开发的刚需。
还提到了已经成为开源核心势力的中国 AI 厂商们,总之,作为一篇了解2025 AI 创业现状的报告,很合适。原文链接:
注:本次报告用了很多超新星、流星、星系的类比(怎么看怎么奇怪),本来想去掉,但为了不影响一些关键观点的理解,就尽量保留了。
未来,AI 行业将从「证明 AI 可解决问题」,转向「构建能通过经验、清晰度与目标来定义、衡量并解决问题的系统」。
最优秀的工程团队不仅用 AI 编写代码,更在构建能通过每一轮开发循环实现学习、自适应与快速交付的系统。
MCP 只是「食谱」,而不是「厨师」。要实现真正的「落地应用」,还需要生态系统的支持。
记忆(memory)正在成为核心产品要素。跨时间记忆、适应和个性化的能力,是将工具有用与不可或缺区分开来的关键。优秀的 AI 系统不仅仅是简单的信息回忆,而是与用户共同进化。
对 AI 应用来说,上下文和记忆正成为新的护城河。应该将记忆看成是一种产品,而不是一种单纯的后端技术。能将记忆作为产品核心来构建的公司,将能定义下一代更智能、更个性化的 AI 系统。
垂直领域 AI 的被采用速度正在持续加快,尤其在长期依赖人工操作、服务密集型或被认为「抗拒技术」的垂直业务流程中。
下一代 Agentic 浏览器将远不止是插件。它们将在操作层嵌入 AI,实现多步自动化、跨标签页和会话的智能交互以及实时决策。新的浏览器大战即将开始。
AI 评估将走向「私有化、场景化、可信化」,并推动企业级 AI 落地规模实现10倍增长。
2025至2026年,预计行业并购活动将大幅激增,传统巨头会主动通过收购切入 AI 时代。特别是医疗健康、物流、金融服务、法律科技等「高服务属性、强监管」领域。
AI 正在推动我们所见过的最大一波技术变革浪潮。对于一些 VC 的观点,创业者们难免会思考如何辨别其中的炒作与现实 —— 但在 AI 领域,简单的数据便足以说明问题。收入增长是衡量初创企业最直接的标准,为此我们更新了基准,并重点分析了20家优秀的 AI 初创公司,来在定义一家优秀的 AI 公司应具备的特质。虽然这些基准未来仍然会改变,但 SaaS 时代的成功标准在当下已经不能完全适用了。
当然,AI 时代对于初创企业和投资者来说并不是全是好消息,同样也有挑战:
增长信号可能存在误导性。市场需求旺盛,AI 演示效果出色,销量可能激增,但并不是所有的产品都能提供长期价值。当转换成本较低时,客户留存可能十分脆弱。仅凭早期的超高速增长,其带来的意义已经大不如前了。
行业竞争激烈程度达到峰值。AI 吸引了所有人的目光,热门领域的竞争者数量是过去的2到3倍。同时,SaaS 巨头也正意识到 AI 的紧迫性,例如我们投资的 公司 Intercom,其 AI 产品线亿美元。预计未来几年,这些行业领导者将带来更大的竞争压力和并购机会。
行业发展仍处于高度不可预测性阶段。尽管今年我们对行业的认知混乱程度略有缓解,但我们仍处于快速变化之中。MCP、AI 浏览器以及在以下报告中称为「暗物质」(dark matter)的诸多领域,他们带来的影响仍难以判断,对于 AI 未来的演变路径,目前只能做出模糊的推测。
注:关于 AI「宇宙大爆炸」的真正起点仍有争论:有人认为是2012年 AlexNet 在深度学习上的突破,也有人认为是 OpenAI 在2020年提出的 scaling laws。本报告将 ChatGPT 的公开发布视为 AI 进入大众视野的标志性时刻。
基准(Benchmarks)向来不是评判初创企业的完美方式,在 AI 时代更是。尤其是部分 AI 初创公司实现了前所未有的增长速度,这让 AI 领域的创业者们对「优秀」的标准感到困惑。因此,我们更新了基准,反映部分 AI 初创公司正遵循着一套全新的发展逻辑。
为制定新基准,我们研究了 Bessemer 投资组合内外的20家高速增长、具备持久发展能力的 AI 初创企业,包括 Perplexity、Abridge、Cursor 等。
研究表明,AI 时代的惊人增长主要体现为两种不同类型:「超新星」(Supernovas)和「流星」(Shooting Stars)。
如果说 T2D3(连续两年三倍增长,后三年两倍增长)是 SaaS 时代的增长标准,那么Q2T3*(连续两年四倍增长,后三年三倍增长)则更能反映当前 AI「流星」型公司的五年增长轨迹。这类企业的增长速度显著快于传统 SaaS 企业,但相较于爆发式增长的「超新星型」企业,其运营模式更接近 SaaS 基准。
*我们承认尚未看到五年的完整数据,未来几年这些公司或许不会真的实现三倍增长,但「Q2T1D2」远没有那么朗朗上口。
尽管我们青睐「超新星型」企业,但我们认为,定义这个时代的不会是少数「异类」,而是数以百计的「流星型」企业。因此,「流星型」企业更应该是 AI 创业者追求的核心基准。
我们分享这些「非常规」的新基准,是为了展现当前顶尖 AI 初创企业的真实状况。但需强调的是,打造一家标志性的 AI 企业,并不意味着必须在一夜之间实现四倍增长。许多最优秀的公司仍会根据产品复杂性和竞争格局,选择一条更稳健的发展路径。
然而,速度比以往任何时候都更重要。AI 加速了产品开发、市场推广(GTM)和渠道分发,使得「Q2T3」成为一个富有挑战性但日益可及的基准。已有数十家初创公司证明了可能性。
在 Bessemer 追踪的每一张路线图中,我们都看到 AI 技术栈的许多元素在过去一年里得到了显著的具象化,形成了数个早期的星系。我们将梳理各路线中的这些「星系」,同时也会指出那些我们仍处于猜测阶段的「暗物质」(dark matter,有待攻克和解决的)领域。
首先明确一点:OpenAI、Anthropic、Gemini、Llama、xAI 等少数企业仍主导着基础模型领域。它们在提升模型性能的同时,也在探索垂直整合。大型实验室显然已不再仅仅提供基础模型和开发工具,而是开始推出用于编码、计算机操作和 MCP 集成的 Agents。与此同时,在软件创新与端到端硬件优化的推动下,算力成本正可预见地持续下降。
Kimi、DeepSeek、Qwen、Mixtral、Llama 等顶尖的开源模型也持续证明,开源生态系统的实力仍不容小觑,在效率及特定任务处理上,其表现通常能与专有模型持平甚至超越。
Google 最近的 Mixture-of-Recursions 论文,通过一种平衡推理吞吐量和 few-shot 准确性的自适应深度方法,挑战了现有的扩展假设。
Mixture-of-Experts 架构也重新受到关注,出现了以独特方式组合专家的新技术。
推理时技术,如 test-time reinforcement learning (RL) 和自适应推理,关注度日益提升,其中的垂直领域有望迎来重大突破。
随着企业打造原生 AI 产品与嵌入式 AI 产品,一个涵盖模型、计算、训练框架、编排及可观测性的全新基础设施层已经出现。我们在2024年的《 AI 基础设施路线图》中就强调过这一演变。这套专业化技术栈为开发者提供了所需的速度与灵活性,但随着企业向相邻领域拓展来占据更多技术栈环节,「捆绑整合」的趋势正在加速。尽管目前已取得显著进展,但我们认为, AI 基础设施的快速演变仍远还没有结束。
AI 的第一阶段以重大算法突破为标志,如反向传播、卷积网络、Transformer 架构等。该阶段的发展主要依靠算法改进与扩展定律,相应地,基础设施也反映了这种思维模式,推动了基础模型、计算能力、数据标注等领域巨头的崛起。
在 AI 基础设施的「第二篇章」中,行业将从「证明 AI 可解决问题」,转向「构建能通过经验、清晰度与目标来定义、衡量并解决问题的系统」。
大型实验室不再一味追求基准测试分数,而是开始设计能与现实世界有效交互的 AI ;与此同时,企业也从「概念验证」阶段迈向「生产部署」阶段。
这些转变为新一轮基础设施工具的诞生奠定了基础,这类工具不仅追求规模与效率,更是为了将 AI 结合到运营情境、真实世界经验和持续学习中。例如:
复合 AI 系统:不再仅仅关注原始模型的能力,而是结合知识检索、记忆、规划和推理优化等多个组件。
我们正处于这一转型的开端:从作为概念验证的 AI,迈向作为定义问题并能适应真实世界经验的嵌入式系统。
Rich Sutton 提出的「痛苦教训」提醒我们:从历史来看, AI 领域最有效的进步,源于对计算能力与通用学习的利用,而不是依赖人工设计的特征或启发式算法。随着 AI 基础设施进入下一篇章,当从业者试图嵌入情境、理解和领域专长以确保真实世界效用时,哪种技术将被证明最有效或最具可扩展性,这仍然是一个没有被解决的问题。
2.2开发者平台与工具正在形成的「星系」:AI工程成为软件开发不可或缺的一部分
除了基础设施技术栈外, AI 已经明显改变了软件开发模式。自然语言成为新的编程接口,模型负责执行指令。在这一范式的转变下,软件开发的核心原则正在改变,提示词(Prompt)成为「程序」,大语言模型(LLM)则成为一种新型「计算机」。
AI 不仅意味着开发者工具的渐进式演进,而是开启了一种全新的软件开发方式。我们将在即将发布的《Developer Tooling for Software 3.0》中详细探讨这一领域。
如今,问题已经不再是「团队是否使用 AI 」,而是「如何高效将其整合为一个能持续优化、高速运转的系统」。这种软件开发模式,像是原生 AI 开发的「已形成的星系」。最优秀的工程团队不仅用 AI 编写代码,更在构建能通过每一轮开发循环实现学习、自适应与快速交付的系统。
一个新的基础设施层将对 AI 开发产生深远影响:模型上下文协议(Model Context Protocol,简称 MCP)。该协议由 Anthropic 于2024年末提出,随后迅速被 OpenAI、谷歌 DeepMind、微软采纳,正在逐渐成为 Agent 访问外部 API、工具及实时数据的通用标准。
正如 MCP 的创造者所描述的,它可以被看作是「AI 领域的 USB-C」。它支持持久化记忆、多工具工作流以及跨会话的精细权限管理。有了它,Agents 可以链接任务、对实时系统进行推理,并与结构化工具交互,而不仅仅是生成输出。
对开发者而言,MCP 大幅简化了集成流程;对创业者而言,它为构建「真正的 Agent 产品」打开了大门,在这类产品中, AI 不仅能辅助用户,还能代表用户在各类系统中执行操作。
目前仍处于早期阶段,需注意的是,MCP 只是「食谱」,而不是「厨师」。要实现真正的「落地应用」,还需要生态系统的支持,例如 Prefect 的 FastMCP(大幅简化 MCP 服务器构建)、Arcade 与 Keycard(助力 Agent 授权与权限管理)等工具。随着围绕 MCP 连接器、治理框架及 Agent 专用工具的「星系」不断形成,我们预计它将像 HTTP 之于互联网一样,成为 Agent 原生网络的基础。
随着 AI 原生工作流的成熟,记忆(memory)正在成为核心产品要素。跨时间记忆、适应和个性化的能力,是将工具有用与不可或缺区分开来的关键。优秀的 AI 系统不仅仅是简单的信息回忆,而是与用户共同进化。2025年,大的上下文窗口和检索增强生成(RAG)技术已经能够支持更连贯的单次会话交互,但真正的持久化、跨会话记忆仍然是一个开放性的挑战。 foundational model 公司和 mem0、Zep、SuperMemory 以及 Langchain 的 LangMem 等初创公司都在解决这个问题。
记忆(Memory)是指跨交互保留的信息,支持多步推理、个性化和 Agent 的连续性。
长期记忆:通过向量数据库、记忆操作系统(如 MemOS)和 MCP 风格的编排。
语义记忆:通过混合 RAG 和新兴的片段式模块,专为富含上下文的回忆而设计。
然而,要实现这一点,仍然需要权衡利弊。例如,长上下文会增加延迟和成本;而缺乏有效的上下文管理,长期记忆的稳定性也会不足。
目前,Agentic 应用(如开发 Agents、客户 copilots)正在推动多模态记忆和状态化工作流的落地。同时,神经记忆、持续学习等领域的研究也表明,实现可扩展的记忆能力已经为时不远了。
对 AI 应用创始人来说,上下文和记忆正成为新的护城河。当一款产品比其他任何工具都更了解用户时,更换它的成本就极高。无论是熟悉团队代码库的编程助手,还是深度整合 CRM 的销售 Agent,为用户特定场景积累的智能,都将成为产品最核心的粘性。
创始人应该将记忆看成是一种产品,而不是一种单纯的后端技术。能将记忆作为产品核心来构建的公司,将定义下一代更智能、更个性化的 AI 系统。
企业级 ERP 系统:虽然我们看到 AI 原生会计和 ERP 平台在中小企业和中端市场表现活跃,但它们大多集中在软件和服务等相对简单的行业。对于拥有高度复杂制造、供应链和库存需求的行业,我们认为 AI 同样能提供巨大价值,但新进入者需要时间来构建服务复杂客户所需的产品广度。真正的企业 ERP 替换周期可能还需要数年。
长尾SoR:除了CRM和 ERP,但还有大量「长尾」记录系统,也代表着巨大的颠覆机会。例如企业安全中的身份平台、公共安全中的计算机辅助调度系统、网页设计中的内容管理系统等。我们认为所有这些类别都已经成熟,可以被颠覆,但这将是一个长达十年的旅程,创业者们才刚刚开始将注意力转向这些领域。
尽管潜力巨大,但落地执行仍然困难。展望2026年,我们相信这些领域可能诞生下一批行业新星,但目前预测还有点为时过早。
去年,我们提出了一个大胆的论断:垂直领域AI有望超越最成功的传统垂直SaaS市场。如今,我们对此观点的信心更加坚定。垂直领域 AI 的被采用速度正在持续加快,尤其在长期依赖人工操作、服务密集型或被认为「抗拒技术」的垂直业务流程中。
这一趋势彻底改变了我们对所谓「技术抵触型」行业的认知。事实上,这些行业并不是不愿采用新工具,而是传统 SaaS 无法解决其高价值的垂直特定任务(这类任务多为多模态或重度依赖语言交互)。垂直 AI 终于能够满足这些用户的需求,推出的产品不再像「软件工具」,而是能真正为用户创造「实际杠杆价值」。
多个行业,包括许多过去被认为对技术有抵触情绪的行业,正在展现出垂直 AI 被大规模采用的明确迹象。例如:
医疗健康:Abridge 利用生成式 AI 自动完成临床记录,减轻医生倦怠,同时提升文档质量;SmarterDx 通过自动化复杂编码流程,帮助医院追回错失的收入;OpenEvidence 自动完成医学文献综述,在诊疗场景实时提供答案。
法律:EvenUp 通过生成法律索赔文件,将数天的手动工作缩短至几分钟,使庭审律师和人身伤害律所能够扩展案件处理能力;Ivo 帮助法律团队自动审查合同,并支持跨企业合同的自然语言检索;Legora 加速法律研究、审查与文书起草流程,同时支持全工作流协作。
教育:Brisk Teaching、MagicSchool 等企业推出 AI 工具,帮助教师简化评分、辅导、内容创作等任务。
房地产:EliseAI 自动化了从潜在客户和住户沟通到租赁审计等过去劳动密集型的物业管理工作流程。
家庭服务行业:Hatch 充当 AI 客户服务团队(CSR);Rilla 通过分析真实销售对话音频,为大规模销售团队提供培训指导。
极具吸引力的「切入点」:早期成功者往往从解决核心痛点入手,这类痛点多为重度语言交互或多模态场景,且在以往软件浪潮中未被充分满足。最优的「切入型产品」设计直观易用,且常嵌入现有工作流来实现无缝采用。语音/音频技术反复出现,是「突破性切入点」的关键要素。
上下文是关键:竞争力来自于领域专长,包括针对垂直需求构建的集成能力、数据护城河与多模态界面。最强的团队会迅速超越「模型微调」阶段,深入打造垂直领域专属的实用功能。
以价值为导向构建:从落地第一天起,投资回报率(ROI)就清晰可见,无需通过 Excel 表格向用户解释。这些工具能实现10倍效率提升、将人力重新分配至更高价值工作、降低成本或推动营收增长,其价值是「即时可见」的,而不是「锦上添花」。
与传统记录系统的互动:下一代垂直 AI 公司是会继续与现有记录系统集成并扩展其效用(目前的主流做法),还是会开始直接与它们竞争?未来这些传统记录系统是否会不再是中心,而被 AI 原生的、垂直特定的行动系统所取代?
来自现有巨头的竞争:在那些根深蒂固的 incumbents 并未掉以轻心的垂直领域,是规模和分销渠道会胜过初创公司的创新,还是新一代公司能冲破重围?
可持续的数据护城河:随着垂直 AI 公司扩大其业务范围,在数据分散、隐私敏感且通常难以大规模获取或标准化的行业中,它们能否维持有意义的数据优势?
随着底层技术的发展,满足新消费需求的机会也在不断涌现。去年,消费者对 AI 的使用多集中于生产力相关任务(如写作、编辑、搜索),消费者在探索 AI 的新奇性和实用性;但现在,使用场景正逐渐向更深层次延伸,包括心理治疗、陪伴、个人成长等领域。AI 不再只是「任务辅助工具」,更开始渗透到消费者生活中更具意义的层面。
各年龄段的消费者越来越多地依赖通用 LLMs,特别是 ChatGPT 和 Gemini,来进行日常或每周的辅助(截至2025年3月,周活跃用户分别估计为6亿和4亿)。这些工具从「新奇事物」逐渐变为「生活习惯」,每周为数亿用户提供服务。即便大量细分场景应用出现,大多数消费者仍依赖这些通用助手来满足研究、规划、咨询、对话等多样化的需求。
过去一年,语音成为消费者与 AI 应用交互的重要方式。与 Alexa、Siri 等传统助手不同,基于 LLM 的语音 AI 能处理开放式问题、引导深度思考、支持更流畅的对话交互,为用户提供直观的「免手动」技术交互体验。Vapi 等语音 AI 平台正在帮助消费者实现跨语言、跨场景、带情感的方式与机器互动。
或许最具意义的转变在于消费者获取信息与交互网络的方式。在不断变化的环境下,Perplexity 脱颖而出:其「模型无关」的编排能力与极速用户体验(UX),使其成为原生 AI 搜索的首选工具。随着 Perplexity 推出 Agent 浏览器 Comet,该公司正进一步拓展边界,Comet 有望成为下一代「环境感知型」「主动式」Agent 的标志性形态。
除了作为「高级助手」外,AI 还降低了创作门槛,让每个消费者都可能成为创作者:消费者通过 Create.xyz、Bolt、Lovable 等工具开发应用;通过 Suno、Udio 生成音乐;通过 Moonvalley、Runway、Black Forest Labs 等平台制作多媒体内容;通过 FLORA、Visual Electric、ComfyUI、Krea 等工具加速创意构思与迭代。AI 正将普通消费者转变为创作者,不断突破以往认为的「不可能」。
随着消费者希望将 AI 更深度地融入到日常生活中,一批聚焦特定需求的消费级应用出现。其中增长最快的领域之一是心理健康与情绪健康:尽管「ChatGPT 疗法」持续获得关注,但我们也看到以自我反思和个人成长为中心的专用工具的出现,例如 AI 日记与导师工具 Rosebud、游戏化自我关怀助手 Finch(帮助用户设定个人目标、培养健康习惯、追踪情绪状态)。Character.AI 早期就显现出消费者对「情感表达型 AI」的需求,而过去一年,这一需求已经成为主流,LLM 工具正越来越多地围绕「长期记忆」「情绪韧性」「自我发展」来设计功能。
另一种新兴的应用是邮件与日程管理工作流:越来越多初创企业尝试用 AI 简化日程安排、收件箱管理与待办事项自动化。但由于这些场景对「信任」要求高,且面临 Gmail 等强劲行业巨头竞争,客户获取与留存一直是一个挑战。
尽管餐饮规划、健身、育儿等细分消费场景种涌现出了大量产品,但我们不太确定在这些小众领域是否会出现明确的赢家。即便有这些选择,多数消费者仍倾向于使用通用 LLMs,认为它们对于许多这类任务来说「足够好」。细分场景应用若想实现突破,就需要提供清晰的差异化价值,通过定制化体验来解决「高频刚需」问题,才能在用户的主屏幕上占据一席之地。
一些最明显的消费用例仍未得到充分满足,并不是需求不足,而是这些场景仍然需要用户进行过多的手动操作。尽管早期 Agent 产品正在出现,但底层技术仍在成熟过程中。
围绕「安全性」「自主性」「可靠性」的问题仍未解决,因此「代用户执行操作」的 Agent 目前仍处于早期阶段。
旅行领域:旅行预订流程仍分散且耗时,「个性化端到端旅行 concierge」的市场机遇巨大,但目前仍无企业成功占据这一赛道。
购物领域:当「搜索起点」从谷歌转向「代用户浏览、比价甚至结账的 Agent」时,电子商务有机会被彻底重塑。
谁将占据这些场景?是控制 AI 原生浏览器的玩家、通用 LLM 助手,还是新一代消费级端到端 Agent 应用?答案可能将决定下一代消费级平台的赢家。
与往年一样,我们通过调研合作伙伴,筛选出了未来几年最关键的五项 AI 预测。我们从数十项预测中,最终确定了这五项达成一定共识的方向。
随着 Agent AI(Agentic AI)的发展,浏览器正从「导航工具」转变为「自主执行环境」,成为可编程的「数字世界入口」。
虽然语音在特定场景下仍是一种自然的交互方式,但浏览器提供了更强大的功能:它是嵌入日常工作流的「环境感知型」交互界面,能无缝集成到消费端与企业端系统种,让 Agent 能够在使用户已依赖的应用中进行观察、推理和行动。
下一代 Agentic 浏览器(如近期推出的 Comet 与 Dia)将远不止是插件。它们将在操作层嵌入 AI,实现多步自动化、跨标签页和会话的智能交互以及实时决策。与传统扩展不同,这些浏览器可以解释用户意图并端到端地执行工作流。
我们预计 OpenAI、Google 等公司将很快推出新的 AI 原生浏览器,每一款都将推动 agents 在会话中能力的边界。浏览器的普遍性、灵活性和集成深度使其成为跨 B2B 和 B2C 用例的 agentic AI 最强大、也最必然的界面层。新的浏览器大战即将开始!
2024年是生成式图像模型进入主流的转折点。2025年,在延迟、感知能力、拟人化和定制化方面的改进以及成本大幅降低的推动下,语音领域也出现了类似的突破。2026年,视频生成技术将有望实现「跨越鸿沟」。从 Google 的 Veo 3、Kling,到 OpenAI 的 Sora、Moonvalley 的 Marey 以及新兴的开源模型,模型质量正在加速提升。我们正接近一个在可控性、可及性和真实感方面的临界点,将推动生成式视频实现规模化商业应用。
视频历来是成本最高、复杂度最高的媒介,但生成式视频与多模态模型正在打破这些壁垒,让视频创作更易实现和获取。我们已经看到生成式视频模型在娱乐、营销、教育、社交媒体和零售领域获得主流采用。我们预计将涌现大量针对特定用例的初创公司和工具,从电影叙事、虚拟形象动画到实时客户互动和产品视频。
大型实验室会垄断市场吗?谷歌 Veo 3等模型设定了视频真实感与可控性的基准;Higgsfield 通过在现有前沿模型基础上构建「场景内学习」差异化应用,证明「不一定需要训练自己的模型也能打造强大的产品。
开源生态会迎头赶上吗?与「开源模型表现超越闭源」的图像生成领域不同,视频生成领域的开源领导者较少。视频模型计算和数据密集,训练成本高昂,评估复杂。但我们预测,2026年将出现强大的开源视频模型,通义千问(Qwen)的开源视频模型已展现潜力,且势头正不断增强。
实时或低延迟用例是否存在优势?我们正在关注像 Lemonslice 这样的早期团队在流媒体视频和实时推理方面的实验,速度和响应性本身就可以成为产品护城河。
电影级视频:面向创作者、工作室、营销团队的工具(如 Moonvalley);
但技术进步的同时,知识产权(IP)复杂性也在上升。生成式视频的版权与监管体系仍在完善中,大型影视公司已经开始对「侵权使用受版权保护资产」采取行动。该领域的初创企业应该审慎且主动地开展数据授权、规范训练数据来源,并建立尊重创作者的版税机制,这不仅关乎法律风险,更影响长期信任、差异化竞争力与可持续发展能力。
无论生成式视频最终成为「大型实验室主导的少数玩家市场」,还是「应用、基础设施与开源创新丰富的生态系统」,有一点是明确的:视频创作的新时代已然来了,且将重塑互联网。
企业级 AI 落地的最大未解决瓶颈之一是「评估」:产品、功能、算法变更的效果如何?用户满意吗?能否提升营收/转化率/留存率?多数企业仍难以评估模型在其特定真实场景中的可靠性表现。像 MMLU、GSM8K、HumanEval 等公共基准最多只能提供「粗略信号」,往往无法反映真实工作流的细微差异、合规约束或「决策关键场景」的特殊性。
因此,2025-2026年将成为转折点:AI评估将走向「私有化、场景化、可信化」,并推动企业级 AI 落地规模实现10倍增长。
如今的企业不仅追求「性能」,更追求「可信度」,而可信度需要基于企业自身数据、用户与风险环境构建的「可信、可复现的评估框架」。正在改变的是:企业不再追逐排行榜分数,而是构建内部评估套件,衡量 AI 在隐私敏感工作流、客户支持、文档解析、Agent 决策等场景中的表现。
Braintrust、LangChain、Bigspin.ai、Judgment Labs 等初创企业正在构建这一新时代的基础设施技术栈,提供评估工具集、Agent 基准测试环境、实时反馈循环等功能。
随着企业买家变得更加成熟,他们将不再只关注「性能」,更要求「可证明、可解释、可信任的性能」。DataHub 等工具能确保 AI 模型仅按规定使用数据(明确数据来源、用途与范围),并通过数据溯源提供额外验证与合规支持。AI 供应商需要在购买前,而不仅仅是部署后,提供有效性的证据。在这种情况下,评估与数据溯源不再只是「开发功能」,而是成为 AI 技术栈的「战略层组成部分」,也是采购与治理的「核心要求」。
传统的产品开发始终追求「数据驱动、用户导向」,LaunchDarkly 等平台为此提供了实验与衡量工具。但在 AI 领域,预测性而不是确定性的用户体验占据主导地位,传统产品开发原则的基础已经被动摇。像 Arklex、Kiln AI 和 Pi Labs 这样的公司提出了在 AI 原生时代关于衡量和反馈循环的全新思维方式。
随着基础模型性能逐渐趋同,真正的差异化将不再是「原始准确率」,而是确切地知道你的模型在你的环境中如何、何时以及为何工作。能实现「规模化、可解释、企业级适用」评估的初创企业,将开启 AI 落地的下一波浪潮,并定义下一代核心基础设施领域。
从历史来看,消费级技术的重大变革往往会为新社交媒体巨头的崛起奠定基础:PHP 技术成就了 Facebook,手机摄像头催生了 Instagram,移动视频技术则推动 TikTok 走向爆发。很难想象,生成式 AI 所带来的全新能力,不会催生出类似的突破性平台。
目前,我们还无法确定下一个社交媒体巨头将以何种形式出现。它可能是一个由 AI agents 在后台确保我们不错过任何生日、朋友动态或本地重要事件的网络,帮助我们在网络和现实生活中成为更好的自己。或者,它可能是一个由富有情感智能的 AI 网红和 AI 克隆人组成的世界。像 Character.AI 和 Replika 这样的平台暗示了 AI 而不是人类可能成为主角的社交空间。
无论最终形态如何,语音交互、长期记忆、图像与视频生成等领域的技术突破,无疑将成为下一代社交媒体爆发的核心推动力。成功的平台或许会以「主流爆款」的姿态登场,也可能先从细分社群起步,随后快速扩张为成熟的生态系统。
在原生 AI 初创企业掀起两年快速变革后,行业巨头正在反击,不是通过「从零重建」,而是通过收购获取所需能力来追赶趋势。2025至2026年,我们预计行业并购活动将大幅激增,传统巨头会主动通过收购切入 AI 时代。
垂直软件领域的竞争格局最为清晰。随着原生 AI 初创企业深入行业专属工作流(如自动化处理保险理赔、法律文书或收入周期管理),传统 SaaS 企业面临严峻抉择:要么主动进化,要么被时代淘汰。对许多企业而言,收购是实现创新的最快路径。我们预判,医疗健康、物流、金融服务、法律科技等「高服务属性、强监管」行业将迎来一波整合浪潮。
但这不仅仅是简单的「AI 功能叠加」。垂直领域 AI 的兴起正在迫使结构性转变,软件与服务的边界逐渐模糊。AI 工具已经深度嵌入行业工作流,其角色更接近「智能服务提供商」。对传统巨头而言,收购这类 AI 企业不仅是「AI 能力升级」,更是对自身核心价值主张的重塑。
与此同时,市场对 AI 基础设施与工具的需求,将推动企业在「模型编排、评估、可观测性、记忆系统」等领域展开战略性收购。企业不仅在购买应用,他们还在购买 AI 原生技术栈的构建模块。
为战略兴趣做好准备:如果你正在构建领域特定或基础设施层的 AI 产品,预计会收到希望填补空白的传统玩家的接洽。
争取杠杆优势:处境最佳的初创公司将拥有强大的技术护城河、客户吸引力和难以复制的嵌入式工作流。
了解收购方的路线图:了解 incumbent 在你所在领域的短板。如果你能提供他们无法足够快地构建出来的东西,你就是有价值的。
对投资者而言,这波整合浪潮既意味着流动性机遇,也印证了核心投资逻辑:传统巨头正用资金证明,原生 AI 企业正在定义新的行业标准。AI 原生颠覆的时代或许由初创公司开启,但第二幕已经上演,行业巨头正全力备战。
如今的 AI 行业已告别「萌芽阶段」,正处于「星系加速演化」的深度发展期。当下顶尖的初创企业不只是在「开发更快的软件」,更是在设计「能感知、倾听、推理、行动」的系统,将智能融入工作与生活的方方面面。
但事实是:AI 领域的成功不只是「速度竞赛」,更关乎「方向精准度」(即向量 vector)。最具标志性的公司不会是那些仅仅顺应浪潮的公司,而是那些塑造浪潮的公司,将指数级的能力与现实世界精准对齐。
AI 不再是理论,而是「落地工具」:它能创造营收、构建关系、改写行业规则。但与此同时,诸多问题仍待解决:记忆能力、场景理解、治理机制、Agent 自主性。而这正是当下时代的魅力,路线图虽仍模糊,但前沿机会是真实存在的。
两种成功模式浮现:「超新星」型公司能在1.5年内达到1亿美元 ARR,但常伴有留存率低、利润微薄的问题;「流星」型公司则更像优秀 SaaS 企业,在4年内从300万美元稳健增长至1亿美元,拥有良好的产品市场契合度与健康的利润率。
记忆与上下文是新护城河:最具竞争力的产品能够记忆、适应并实现个性化。持久的记忆和语义理解能建立起功能和情感上的用户粘性。
「行动系统」取代「记录系统」:AI 原生应用的核心是驱动业务行动,而不仅是存储数据。关键在于重新构想整个工作流,而非在旧软件上叠加 AI 功能。
从高价值痛点切入:聚焦一个狭窄但高频的痛点(如法律研究、销售笔记),快速提供10倍价值,然后逐步扩展。
浏览器是新的操作层:Agentic AI 正转向以浏览器为核心界面。在这里,agents 可以观察并执行任务。为这一新「操作系统」构建产品是关键。
内部评估至关重要:公开基准已无法满足企业需求。企业需要的是可信、可解释的性能验证。应从第一天起就内置私有化、持续化的评估能力。
实施速度成为战略优势:代码生成、自动映射等技术将过去耗时数月的部署缩短至几小时,这极大地削弱了传统软件的供应商锁定效应。
垂直AI即新一代SaaS:过去被认为「抗拒技术」的行业正快速拥抱 AI。制胜关键在于深度嵌入工作流、提供明确的 ROI 并快速扩张。
巨头正在并购入场:SaaS 巨头正通过收购布局 AI。初创公司应建立技术和数据壁垒,做好被并购的准备,但要以主导者的心态运营。
品味与判断力是最终优势:在技术趋同的背景下,创始人的洞察力成为关键。能判断什么产品「应该」被创造,而不仅仅是「可以」被创造的创始人,将定义下一个时代。
创业者的核心优势正在转变:单纯追求速度已不足够,还需具备产品直觉、用户同理心与清晰的目标感。你需要的不只是「更优秀的模型」,更是「更贴合世界的价值模型」。未来成功的企业,不会追求「更多 AI 功能」,而是「在正确场景、以正确方式、实现正确结果的 AI」。
AI 领域正高速扩张,此刻正是构建「自身星系核心引力」的关键时期。行动起来。
:13987489529
:
:241412eb@qq.com
:广东省广州市