赵长鹏投了一个华人大三学生，1100 万美元种子轮，做教育 Agent

2025-10-30

VideoTutor完成1100万美元种子轮融资，主打AI生成个性化教学视频，面向K12教育市场，由YZi Labs领投。团队核心优势在于可视化学习解决方案和快速迭代能力。

华人大三学生，1100 万美元种子轮，硅谷学生创业目前融资最高产品。

主打一句话即可生成个人专属教学/讲解视频，面向 K12 的教育 Agent 产品 VideoTutor，今日宣布完成种子轮 1100 万美元融资。本轮融资由 YZi Labs领投，百度风投、锦秋基金、Amino Capital、BridgeOne Capital 以及多位知名投资人联合参投。

这也是 YZi Labs 投资的首家 AI产品公司。

创始人 Kai Zhao（赵凯）表示，VideoTutor 获得了赵长鹏及 YZi Labs 投资团队的认可与支持，并最终由 YZi Labs 领投本轮融资。他们拿到了 10 多个 TS（投资意向书），最终选择了这几家。

5 月 14 日上线第一版产品（在 Founder Park 产品市集首发），得到了市场的认可与 PMF 的验证，不到 5 个月的时间，完成了这笔 1100 万美元的种子轮融资。

在 Kai 看来，他们能拿到这笔融资的核心原因是：方向正确的前提下，「小天才团队」用可视化学习的方式解决了 K12 赛道的美国高考学习的痛点。

「这个领域比较适合年轻人去做，再加上有非常好的工程化动手能力，以及 founder 本身有非常好的 insight 和经验，执行力非常快。」

不只是他们，Cursor、Mercor、Pika、GPTZero 等等，硅谷的大学生们，正在用一个一个创下融资新高的 AI 产品，刷新大家对于 AI 创业的认知。

AI 时代的创业，真的有些不一样了。

我们跟 VideoTutor 的这些年轻人们聊了聊，想知道为什么他们能拿到这笔种子轮融资，如今的硅谷创业正在发生什么样的变化。以及，为什么他们这么想招国内大厂的员工。

采访嘉宾：CEO Kai Zhao、CTO James Zhan。

采访&编辑｜万户

以下是访谈内容，经 Founder Park 编辑整理。

Founder Park：这么多家机构都很看好你们，在你看来，核心是哪个点打动了他们？

Kai：

其次，团队非常优秀。James 来自 Gemini，在谷歌就是做 AI 工程和算法的核心工程师。我本人有三次教育创业经历，从大一开始就创业做教育软件，在大二期间参与创建 MathGPTPro 其中项目入选奇绩创坛等。有成功打造教育产品的经历。

第三点，我们做的 AI 教育领域，核心是动画引擎，而我们是 VideoTutor 的核心开发者，是最了解核心技术的团队，能把动画引擎做到十分精准的渲染。

团队本身有非常好的 marketing 基因，知道怎么做传播。

VideoTutor 非常符合美国主流 VC 的一个投资共识，叫「小天才团队」，指的就是这个领域比较适合年轻人去做，再加上有非常好的工程化动手能力，以及 founder 本身有非常好的 insight 和经验，执行力非常快。我觉得这是所有投资人都能看好的一个共识性的原因。

VideoTutor 在 YZi Labs EASY Residency Demo Day 登上纽交所

Founder Park：你们的产品想解决教育里行业的哪个核心问题？

Kai：

而 VideoTutor 覆盖的是主动学习场景，我们不需要考虑学生的学习动机，因为他们必须要去学习、要去考试，比如美国高考 SAT、AP。在这个场景里，有大量可视化的痛点需求，美国高考 80% 的内容都涉及函数、微积分等需要复杂图像渲染的知识。VideoTutor 的动画引擎就能非常好地解决这个场景。

而且，这个领域的客单价非常高。美国平均每年有 260 万名学生要参加 SAT 考试，付费需求很大。线下的 SAT 课程收费很贵，不是按套餐，而是按小时收费，平均每小时 150 美金起步，大部分收费在 230 美金。很多学生和家长都会付费学习。但是 VideoTutor 能够很好地平移甚至取代老师的培训，因为现阶段 AI 生成的视频和老师培训的内容几乎没区别了。这样一来，学生能以最低的成本拥有一个自己的 AI 个性化备考老师。

Founder Park：你们当时决定做这个产品的契机是什么？

Kai：

基于 API 套壳、做优化层面的产品已经到了天花板。

但多模态视觉生成有非常大的前景，因为在美国高考这个领域有非常多可视化学习的场景。可惜 Gatekeep 开了个好头，但没有继续下去，因为它推出得有点早，当时的基础模型编程能力还没成熟，GPT-4 也还没发布。再加上数学动画引擎涉及到渲染和算法，他们没有攻克。但我们团队掌握了动画引擎的所有核心开发，解决了这个问题，让视频渲染非常准确。

Founder Park：你们当时产品上线后，跟几个学校也达成了合作。在你们看来，是什么时候或者哪个功能让你们觉得「我这个产品做对了，痛点找对了」，感觉自己找到了 PMF？

Kai：

首先，从营收指标维度，到现在为止 VideoTutor 已经收到了 1000 家企业的 API 请求，包含了美国所有知名的大型教育机构，甚至国内的机构。此外，还有很多学校想要购买服务。C 端用户的意向更直接，有个学生家长，也是个投资人，他体验完产品后，把产品给了所有亲朋好友试用，所有人都愿意付费。然后他不知道从哪拿到了我的电话，给我发短信想要投我们。C 端用户有非常强烈的付费意愿。

第二点，从用户需求层面。为什么美国线下一对一的 Tutor 教育那么刚性？因为家长觉得一对一教学效果好，愿意付这个钱。现在多模态 AI 技术已经能拟人化地做到一对一的教学效果，所问即所答。而且，美国线上一对一教学老师录的视频课，其实跟 AI 生成的视频没区别了。这就是我说的「需求平移」，学生花大价钱买的录播课程，跟我 AI 生成的没区别，那为什么不用 AI 呢？成本更低，教学效果更好。

我们收到了很多学生非常正向的反馈，很多老师也愿意传播这个产品，前期的完播率和使用时长都特别好。我们现在筛选出的 200 个种子用户，都是早期积累的。

第三点，就是一种产品的 taste 和 sense。当你不断地做，从整个教育行业的进步、到学生和家长付费的核心需求点、再到产品自身的进化，倒推回来想，整个逻辑是闭环的。所以从这三个维度来看，你就觉得 PMF 已经足够了。最核心的就是，付费意愿非常非常强。

跟 FIZZ 达成了合作

Founder Park：很多用户主动想付费，也有人主动联系你们想投资。

Kai：

Founder Park： SAT 这个赛道，对考生来说，一个真人老师和一个 AI，他会信任 AI 吗？

Kai：

而且这个市场是可以平移的，做完美国市场，我们还可以平移到加拿大、英国的 A-Level 考试等等，付费需求非常大。

Founder Park：付费这块你们现在怎么考虑？

Kai：

Founder Park：但是按考试结果付费，不是还要看学生个人的能动性吗？

Kai：

其实很多美国在线 tutor 也有这个服务，你付给老师 1800 美金，老师辅导孩子，成功率基本是 100%，因为 SAT 考点是固定的。只要学生智商水平正常，基本都没问题。但高考不行，高考没办法短期内提上来。而且国内高考需要拉开分数差距，会有难题，但美国高考不存在绝对的难题，因为它更多是考察你是否掌握了知识点。

按结果付费也是之前教辅老师已经在用的模式，具备这个前置条件。

Founder Park：那你们的定价里，模型成本会是一个困扰吗？占比高吗？

Kai：

Founder Park：记得你上次说，你们第一版的原型差不多只花了两个多月的时间。当时整个开发周期，比如分工、决定做哪些功能、不做哪些功能，是怎么考虑的？

Kai：

第一个版本在推特上发了之后引起了很大轰动，带来了大量用户。但这些用户里，很多是程序员、投资人或者科技爱好者，我们可以统称为「技术尝鲜者」。在那个阶段，从他们那里得到的反馈比较分散，价值不大。还是要从这么多广泛的用户里，筛选出真正核心的种子用户，也就是高质量的高中生，然后通过咨询的方式获取有用的反馈。

我们得到的核心反馈就是，视频渲染的精确性必须达到 100%，这是需要优化的重中之重。UI 是否好看，或者是否支持不同的 TTS 声色选择这些功能，都被我们砍掉了。回归到产品的核心：我们做的是理科场景的知识学习，那么图形渲染的精确性就是核心。

Founder Park：生成时长当时是怎么取舍的？

Kai：

Founder Park：现在最长能到多长时间？

Kai：

Founder Park：有没有当时想做，后来发现没那么重要就先不做的功能？

Kai：

Founder Park：所以如果是一款主打教育或者学生群体的产品，网页端是首先要做的，App 反倒没那么重要。

Kai：对，当时其实已经知道这个数据了，毕竟在美国上学多年。后来我们从早期的几万名用户里挖了 100 个学生做调研，这 100 个学生里面 90 多个都有电脑，所以我们更加确信了这一点。

Founder Park：你们上线第一个版本时，也是瞄准 K12 群体来做的吗？

Kai：是的，之后也是瞄准这个群体。我们跟 Gauth 不算竞品，我们更多的是做考试培训场景。美国大量高中生本身就会选择线下培训或者在线学习平台，而 VideoTutor 很好地把这个需求平移了过来。

Founder Park：K12 会是你们起码一年内的核心用户群体吗？

Kai：应该是两年以内的核心指标。

Founder Park：简单介绍一下你们现在的技术实现方案吧？VideoTutor 在生成课程、图表这块确实做得比其他视频生成模型好很多，甚至在很多模型连文字都无法准确生成的时候，你们的技术让人很惊喜。

James：

文字部分相对简单，我们让大语言模型生成文本，然后直接渲染上去。但动画部分，是我们自己的一个数学动画渲染引擎生成的。它的优点在于渲染坐标轴、几何图形等内容的精确度非常高，而这正是我们的核心技术所在。

现在的大语言模型输出的只是文本，我们做的这套 agent 就相当于给了大语言模型一张纸和一支笔，让它能把它想象中合适的教学动画给画出来。画出来的那一部分，就全是我们的技术了。

Founder Park：整个视频最后的合成，包括音视频，是怎么处理的？

James：

最后，我们把所有场景拼接起来，组成一个完整的视频。

Founder Park：我理解第一版是这样的方案。现在加入了随时可交互的过程之后，生成过程是不是也有变化了？

James：确实有变化。我们现在为了让用户能最快看到内容，会先生成第一个场景，让用户先看，后面的场景则在后台继续渲染。当用户提出问题时，我们会将他的人声转换为文本，然后把这个文本连同之前所有场景的内容一起交给大语言模型去推理，让它规划接下来的教学场景。后续场景的渲染流程就和之前一样了。

Founder Park：如果用户在听到一分钟时有个问题，他会直接提问。你们收到提问后，就把用户的提问和之前讲过的内容一起返回给模型处理。在这个过程中，用户提问完之后，动画是继续播还是会停下来？

James：

目前阶段的设计是，AI 老师会说：「嗯，我考虑一下」，然后把黑板一擦，就像真实模拟老师一样。你觉得讲得有问题，那我就擦掉重新给你写一遍，这样的流程会感觉比较自然。

而且我们不只是被动地等待用户提问，中途我们也会做 Quiz。我们会根据 Quiz 的反馈和用户的问题进行推理。而且我们不是完全自由麦，而是需要用户主动打开麦克风，有一个开启和关闭的动作。

Founder Park：所以基于这样的机制，最长大概能生成一个小时的讲解。

James：

Kai：

Founder Park：学生上课时，会要求开启摄像头吗？

Kai：不太会。学生是否开摄像头主要取决于美国的隐私法案。产品里面不太会设计强制开启的功能，是否开启取决于学生的意愿。主要的交互还是通过提问和语音反馈。

Founder Park：技术上，你们是采用小模型和云端大模型配合的策略，还是怎么样？

Kai：是一种配合。我们内部有一个数据集，现在已经有超过 10 万多条的视频数据。这些数据中比较好的都会被人工进行二次标注，然后用来训练微调模型。比如我们现有超过 8000 条的 SAT 样本训练数据。这些微调过的小模型会配合云端的通用商用模型像 Claude、Gemini 来做。

Founder Park：用 Claude、Gemini 还是 GPT，会对产品的核心性能有影响吗？

Kai：我们主要涉及 K12 领域，基础模型的水平已经足够了。但为了确保 100% 正确，我们会调用两个模型同时校对，如果两个模型答案一致，那基本就不会出错。在代码生成方面，更多还是以 Claude 为主，它的代码能力比较好。

Founder Park：现在产品的技术瓶颈在哪？是模型能力还是代码生成？

Kai：模型能力是其中一环。还有就是渲染，现在已经攻克到 5 秒以内，随着 GPU 的更多部署还能更快。另外一个就是长期记忆能力。我们需要对学生进行长期的学习行为数据积累，知道这个学生有哪些知识点不懂，比如一个月前学的知识点忘了，可以重新提醒他。

James：我们在渲染时间上其实下了很多功夫，一直在做技术突破，从一开始的 2 分钟到 1 分钟，再到现在的 10 秒以内。我们最终的目标是希望能做到基本没有延迟的渲染，用户一问，推理一结束马上就出结果。这是我们团队目前在攻克的一个难题，但已经找到了新方向。

Founder Park：现阶段怎么衡量产品的核心指标？怎么判断一个视频对用户是有用的？

Kai：最核心的一个指标就是考试。在新版本里，你看完视频，结尾会有一个 quiz，做对了就证明你理解了，没做对就证明没讲明白。

学习效果没办法只看完播率，有些学生可能看一半就懂了。在他看一半的时候给他做个测试，通过了，剩下的就不需要看了。我们产品的核心指标，就是看多少学生在这里提高了分数。

Founder Park：但他最终的考试是在别的场景完成的，你们怎么得到他是否通过的这个结果？

Kai：这就要说到美国的产品文化，就是用户使用产品后，得到好的结果，会有一种自发性的分享。很多学生用完 VideoTutor 考完 SAT 后，会主动过来分享他们的使用体验和成绩。我们还会让他们成为校园大使，进行二次传播。

我们有 20 个高中生组成的校园大使。其实你看 Mercor 早期非常成功，用的就是典型的「用户成功故事」模式。Mercor 早期帮很多印度程序员找到了美国的工作，然后他们就会联系这些用户，给他们拍一个 user story，讲怎么用 Mercor 找到工作的。这形成了很好的口碑传播。VideoTutor 也是一个道理，我们要的就是更多学生使用产品后达到非常好的效果，然后把这些学生的经历做成 user story 分享出去。

Founder Park：学生主要分享的渠道是在哪？

Kai：学生主要在 TikTok，家长在 Facebook 的群组里。

Founder Park：如果把时间放到半年或一年的时间维度，你们规划的产品增长方式是怎样的？

Kai：我觉得本质上，VideoTutor 核心还是一个 C 端用户产品，口碑传播非常重要。很多成功的 AI 应用早期都是靠种子用户的口碑，比如设计师用了觉得好，就传播开了。对我们来说，核心指标就是有多少 SAT 考生用了这个产品后考了高分，然后传播给其他孩子和家长。家长主要用 Facebook 和 Instagram，学生用 TikTok，我们会在这些平台上传播。当形成这种共识性的口碑时，学校老师自然而然就会意识到。我们早期能被这么多学校知道，就是因为很多老师用了觉得不错，推荐给了学校的采购负责人。所以，最核心的还是 C 端用户的口碑传播，多少孩子用了之后提高了分数是关键指标。

Founder Park：新版本大概的状态和推出的时间规划是怎样的？

Kai：我们希望最快在两个月以内正式 public release。届时学生能够以很低的延迟做到所问即所答，并且理科场景的图形渲染能做到 100% 准确。当然，我们暂时不会覆盖竞赛场景或者像线性代数这种复杂的大学知识，更多还是覆盖 K12 领域。

Founder Park：VideoTutor 现在的壁垒或者护城河是什么？

Kai：我觉得有几点。第一是数据飞轮。视频背后都是代码，用户生成的好的视频数据，经过二次标注后，就能被重新训练微调模型。越多的数据，视频效果就越好。另外就是学习行为数据，我们知道不同学生哪个知识点薄弱，就能建立起数据飞轮，越多人用，产品就越懂学生。第二是领先的技术优势，比如动画引擎的算法。虽然算法本身不是最核心的优势，但随着我们快速迭代，数据越来越多，优势会更明显。

第三是品牌，VideoTutor 已经在北美家长圈里成为 AI 教育领域的一个头部品牌了，家长的信任度也是一种无形的壁垒。

Founder Park：三到五年后，你预期 VideoTutor 最终会成长成一个什么样的产品？

Kai：

Founder Park：你之前有过几次创业经历，大概都是做什么的？

Kai：

基于文字类的解答型教育产品已经到头了。因为它和 ChatGPT没什么区别

赵凯在哈佛大学跟 Sam Altman pitch 的合影

Founder Park：过去的两段经历，除了让你认识到文字类产品的局限，在团队或其他方面，对你现在做 VideoTutor 有什么帮助吗？

Kai：

第一点，更好地判断方向和产品是否有未来。我会通过看竞品的网站流量、营收，来判断整个产品的进化方向。

第二点，产品打造方面，能更好地判断产品的开发节奏，包括产品设计、前后端对接、要看哪些指标。

第三点，团队管理和组织文化能力。我建立了更完整的管理制度，包括每个同学的分工、奖励和期权发放。还有，也学会了怎么去融资。这一轮 1000 万美金的融资，我们在 20 天以内就完成了。

Founder Park：你们现在团队有多少人？

Kai：

Founder Park：团队最初是怎么搭建起来的？

Kai：

Founder Park：你们现在也准备扩招，想招什么样的人？

Kai：

Founder Park：

Kai：

这次招的可能会在国内，所以是 in-person 和远程混合的方式。

Founder Park：希望这个人是什么画像的？

Kai：

想要在国内大厂打过硬仗、有快速迭代经验的人。我们已经度过学生创业阶段了，不太需要招新手，更多需要招一些有经验，但又不是那种完全的「行业老炮」。因为行业老炮可能要顾及家庭，没办法那么卷。所以中间层次的，年轻又能卷的就比较好。

我们愿意给优秀的人才丰富的期权。我们虽然融了 1100 万美金，但为什么没在美国招工程师？就是因为我们觉得国内的产品力和工程能力真的非常好。这一波 100% 会有华人经营的团队打造出伟大的产品，在国际上跑出来。现在很多 AI 应用层面都是华人打造的，国内的工程能力真的很厉害。这也是我们的优势，要利用中美两国之间的优势。

VideoTutor 目前详细招聘需求： https://videotutor.io/

Founder Park：现在尤其是在硅谷，大学生创业的趋势特别明显，你看到的是一个什么样的状态？

Kai：

这一波年轻人创业，都有一个特点，就是高度差异化竞争。他们在极其窄的领域里专注去做，没有做通用的东西。比如 Mercor 做 AI 招聘，一开始就只做印度程序员的招募。

第二点是环境。整个硅谷的资本环境和底层创新，像斯坦福、YC、Peter Thiel 的基金，都在最早的阶段支持大学生创业，不管你有没有成熟的想法，都愿意支持你，并且提供强大的人脉网络。

第三点，我觉得是这些大学生的品质。无论是我们，还是硅谷出来的这些大学生，都有非常勇敢的冒险精神和极强的学习能力。这种勇敢闯荡的精神，国内很多学生可能不太具备。因为在硅谷，身边有很多同龄人成功的案例激励着你，资本环境也愿意相信年轻人。

对我来说，当时也对比过成本和收益。如果我选择读完大学再找工作，未必能还得起家里的留学成本，也未必有很大的收益回报。但如果选择创业，我能在最年轻的时候去疯狂学习，我的人生就有无限的可能。我从小就想创立一家伟大的公司。

Founder Park：为什么今天这一代大学生创业能做出百亿美金的公司，而以前可能卖个一两千万美金就算很了不起了？这里面有 AI的热潮和泡沫因素吗？

Kai：

Cursor 早期就是靠身边的大学生程序员，这些人对 AI 接受度高，给了很强的反馈。创始人本身也是个小天才工程师，能深刻理解用户，工程迭代能力强，早期就四个人把产品干起来了。他们把产品迭代好之后，就形成了用户口碑，有了营收，投资人也怕错过下一个 Mark Zuckerberg，所以资本又来助力。

最底层的条件是，AI 这波很多技术是新的，年轻人学习速度快，又务实、靠谱、敢干，所以有极致的用户理解和超快的迭代速度，去击败传统的产品。比如在 Cursor 之前，GitHub Copilot 做得也挺好，但为什么没干过它？就是因为用户体验和执行速度。

Founder Park：是不是可以说，因为 AI是个新技术，所以很多产品认知也需要用新的角度来看？

Kai：

所以，认知迭代速度是核心。移动互联网时代，技术迭代是以年或者季度为单位的，但 AI 时代，技术迭代可能是以天为单位的。作为 founder，你必须快速学习，而年轻人更能熬夜，更有拼劲。

Founder Park：之前有媒体说硅谷很多创始人也开始 996 了，你们怎么看？

Kai：

Founder Park：硅谷的这些大学生创业，在赛道选择上有什么趋势吗？

Kai：

还有认知叠加。我们三次都做教育，我的认知是不断叠加的。这帮大学生不太会贸然做自己过去没干过的事，都是想着怎么干得更好。他们有新一代的思维方式，在自己认知圈里不断迭代，勇于创造机会。

还有一点是勇敢闯荡的精神，不太会因为别人的否定而否定自己，有一种「I don't care what you think about me」的态度，非常自信。背后就是「高速实验」的文化，我知道我产品还没 ready，但我不管，快速上线、快速迭代、快速反馈。

Founder Park：这个风潮大概是从什么时候开始的？

Kai：

一句话，「Better done than perfect」，完成比完美更重要。而且大家也不太担心竞争，硅谷很多 founder 都愿意把自己的产品理念讲出来，不怕你抄，我只要快速迭代就好。我觉得这一波年轻人还有很好的 story telling 的能力，这种讲故事不是假大空，而是在务实求真的基础上，加上自己对未来的展望。

Founder Park：先把自己营销出去。

Kai：

美国那边的 VC 也都会看大学生的项目，YC 每期都会固定投一些大学生的项目。

Founder Park：如果回到刚做 VideoTutor 的时候，你会给自己提什么建议？有什么可以做得更好的地方？

Kai：

现在的团队适合从 0 到 1 的成长，但要把 VideoTutor 做得更大，还是需要更有工作经验的人加入进来，把他们优秀的经验和能力带到团队，帮助整个团队共同成长。

Founder Park：未来半年内，你觉得 VideoTutor 可能会遇到什么样的产品或技术难题？

Kai：

James：

Founder Park：会因为创始人的背景在后续扩张上遇到困扰吗？

Kai：

融资是 VideoTutor 最不需要担心的事情，最需要担心的还是围绕着用户生态和产品。

赵长鹏投了一个华人大三学生，1100 万美元种子轮，做教育 Agent

線上客服

客服團隊