位置：首页 > 站长资讯 > 创业资讯 > 90后天才少年打造AI家教，教韩国人说英语，干出10亿美元独角兽

90后天才少年打造AI家教，教韩国人说英语，干出10亿美元独角兽

发布时间：2025-01-09 12:11:06

文章来源：原创

访问次数：4

K 多屏

为什么一个语言学习软件，能被OpenAI连投四轮？

作者丨刘杨楠

编辑丨海腰

图源丨Speak官网

2018年1月，Speak正式在韩国上线应用商店。上线当天共3人付费，收入18美元。这是Speak成立3年来第一笔用户付费收入。

Speak是两位天才少年共同打造的一款AI语言学习产品。

一位名叫Andrew Hsu，生于中国台湾，在美国长大，从小便是华盛顿各大媒体笔下的天之骄子。Hsu 5岁能解代数题，7岁因太聪明而辍学开始家庭教育（Home-schooling），用1年时间学完了从小学到初中的课程；12岁考入华盛顿大学，16岁从华盛顿大学毕业时手握三个理学学士学位；19岁成为斯坦福大学神经科学项目四年级博士候选人后辍学创业，成为Peter Thiel“20 Under 20”计划的一期学员，后来成为首位拿到Google Venture等知名VC投资的创业者。

另一位名叫Connor Zwick，从13岁开始编程，曾被澳大利亚科技网Nettuts.com聘请担任网站作者；高二时开发一款语言学习应用Flashcard+，用户最高达500万，最终被上市教育企业Chegg收购。之后，Connor入学哈佛，但只上了一年课便辍学创业，成为“20 Under 20”计划二期学员并结识Hsu。

2016年，二人共同创办语言学习应用Speak，试图借助最新的AI技术，打造一个“AI tutor”，让每位语言学习者享受到个性化教育，真正学会“说”英语。

为实现这个目标，成立以来，Speak团队用了几年时间反复试验PMF。而上线首日的18美元让团队第一次看到希望，也为今天的10亿美元估值写下序章。

“小天才组合”

2011年，Peter Thiel发起20 Under 20计划，鼓励有想法的学生辍学或暂时休学创业。

同年，年仅19岁的天才少年Andrew Hsu从斯坦福辍学，成为20 Under 20的一期学员，并创办Airy Labs。Airy Lab希望针对儿童开发出能被家长们广泛认可的，具有教育意义的社交游戏，真正实现“寓学于乐”。

当时，Hsu天才少年的光环，Peter Thiel的背书，以及超前的教育理念让Airy Labs成为VC眼中的一颗新星。Airy Labs成立不久便获得150万美元种子轮融资，投资方大佬云集，包括Google Ventures、Foundation Capital和Playdom创始人Rick Thompson。拿到融资后，Airy Labs的团队迅速扩充至20人，Hsu也成为媒体口中的创业明星。

然而，一时风光无两的Airy Labs仅存活了不到1年。

Hsu的天赋并未在经营公司中体现，他的父母成为公司真正的掌舵人，并逐渐将公司变成了一个“家庭作坊”。

Hsu的父母近乎像管孩子一样管理Airy Labs，他们制定的一系列管理制度在员工眼中都很“糟糕”。例如，上午9点到下午6点不能在办公室大声说话，必须通过电子邮件或通讯软件交流；部分成员需要在工作结束后向Andrew Hsu或其父母汇报工作，经常等到晚上9、10点甚至更晚才下班，而且每周通常要工作6~7天。

“管理层与父母不同，他们肯定不爱我们。他们要求的工作时间在他们所在的国家可能是正常的，但在这里是不可接受的。我认为他们没有根据文化差异进行调整。”一位离职员工曾抱怨。

除管理问题外，Airy Labs的离职员工曾透露，公司并没有清晰的愿景和战略布局。公司网站上描述的愿景是“为儿童打造下一代社交学习游戏”，但公司却没几个全职的游戏设计师。在这种情况下，公司却一连发布7款免费产品，几个月后才引入收费机制，导致公司一直烧钱，却没有收入。

面对如此局面，Hsu一度寄希望于A轮融资能提供更多资金维持运转。但最终，员工们没有等到A轮融资，而是减薪裁员、公司倒闭。

创业失败的教训惨痛，但Andrew Hsu改变教育的热情却丝毫不减。正是这次创业经历，他认识了20 Under 20计划的二期学员Connor Zwick。

Connor Zwick从13岁开始编程，曾被澳大利亚科技网Nettuts.com聘请担任网站作者。高二时，Connor Zwick一度对时下的教育体制感到失望，希望用创新技术实现真正的“因材施教”。于是，Zwick开发了语言学习应用Flashcards Plus，用户可以把单词和短语的语音制作成电子学习卡片反复练习。

“我当时的想法是，如果能将这些知识点汇总成某种知识图谱，就能生成任何内容、教授任何知识，并创造出一个无所不知的导师。”Connor近期回忆道。但显然，当时的技术水平难以满足这个愿景。最终，Flashcards Plus全球用户量达到500万，2013年被教育科技上市公司Chegg收购。

之后，Connor考入哈佛，在哈佛大学学习一年后，便拿下10万美元的泰尔奖学金和Y Combinator提供的15万美元投资辍学创业，开发了Coco Controller，曾和30家游戏企业建立联系。

直到2016年，Andrew Hsu和Connor Zwick都看到了在AI教育领域再次出发的机会。

AlphaGo战胜李世石后，深度学习范式成为AI界的新热点，大量人工智能论文问世，Andrew Hsu和Connor Zwick在硅谷亲眼见证了一切的发生。

“那时的模型更加具体，比如语音模型、图像模型。我们看到这些模型即将与人类一样好，甚至比人类更好。”Connor曾对媒体表示，“当时只是觉得这东西很酷，想用AI来打造一些有趣的东西。”

他们用一年时间研究AI，甚至到斯坦福蹭课学AI。期间，他们尝试开发了各种不同的算法，还尝试过不少计算机视觉应用，例如用AI定制服装，或应用于医学影像测量人体指标，以及用深度学习预测天气。

但二人发现语音识别是效果最惊艳的。当时，他们在YouTube上随机收集了一些语音数据，构建了一个语音识别系统，不仅能理解用户说话的内容，还能理解不同口音。

用随机数据训练的模型尚且有这么好的效果，如果质量更高的数据呢？于是，二人提出一个技术假设：是否能构建一种真正可用的产品，从中收集足够的用户数据，以供算法使用，改善建模，优化产品体验，进而获取更多的数据，形成良性的数据循环？

在这个假设之上，Speak成立了。

“先有鸡”还是“先有蛋”？

或许是有了此前创业失败的经验，Speak从创办之初就制定了清晰的发展路径。

Andrew Hsu和Connor Zwick二人一致认为，除非学习者移居到英语母语地区，否则大概率只能学到一手“哑巴英语”，无法正常交流。因此，Speak的愿景就是为每一位用户打造一位个性化的“AI tutor”，让想学英语的人能真正会说会用。

目标很清晰，问题在于如何实现。

Speak成立初期，团队遇到了经典的“先有鸡”还是“先有蛋”的问题——要建立强大的AI模型，就需要大量多元、高质量的语音数据喂给模型。但要获得数据，要么需要全程手动搜集，成本高昂；要么就需要创建一款可以收集该类数据的产品，但好的产品体验又建立在强大的模型能力之上。

权衡过后，Speak并未直接自研模型，而是在当时的技术水平下，先推出一款用户可接受的产品，跑通PMF，用户逐渐增长后，Speak再根据用户数据微调自己的模型，形成数据飞轮。

起初，Speak面向全球推出产品做用户测试，每个市场都有AI对话功能，用户可以选择一个类别，选择喜欢的话题和AI简短对话。但试验发现效果并不好，用户基本会在产品发布30天后流失。

这个结局或许并不意外。不同地区用户的学习需求、习惯文化背景不同，很难一概而论，而且语言学习市场本就竞争激烈，已经有Duolingo、Babbel等巨头占领市场，很难正面“硬刚”。此外，当时的语音识别技术也不足以识别全球各地的语音差异。

在Andrew Hsu和Connor Zwick苦闷之际，投资人建议先把公司规模做起来，但二人很警惕这种做法。直到2023年6月，成立七年的Speak也只有30多名员工。

最终，他们决定先从单一市场攻破，以便集中精力用有限的资源快速验证和迭代产品。

2019年，Speak正式进军韩国市场。此前，Speak进行了一番严格的市场调研。他们租了一个小房间做小规模的用户测试，给每一位参与测试的用户发一部测试手机，并全程记录用户的使用过程。

他们发现，用户真正使用产品的时间大多在通勤的时候。抓住通勤时段培养起用户的学习习惯后，用户在其他时间也会自然而然用Speak产品练习英语口语。

意识到这一点后，Speak发现产品的使用量、转化率、留存率都大幅提升，Speak才算初步跑通了PMF。但在Hsu看来，“PMF不仅仅是单点的事物，而是一个连续的过程。你改进PMF的程度越大，你的增长速度通常就越快”。

之后，Speak不断更新产品功能和课程内容，并不断优化产品的交互设计。“任何形式的工具提示、用户教育或功能解释，都意味着我们的设计还不够完善。”Connor认为，应把尽可能减少用户教育作为一个目标。而Speak将这一点做到了极致。

很多语言学习App的内容会采用算法推荐机制，新用户进入应用后，通常会做一份简单的问卷或用户引导流程，选择自己的学习动机、想学的内容等，算法会根据用户反馈给其首页推荐大量信息。但在Connor看来，这些信息并非真正有用。“过去我们想要获得有价值的信息都要自己主动去搜索，而那些被推送过来的信息有99%都毫无价值，比如垃圾邮件和推送通知。”

因此，Speak借助AI能力打造了一个全新的界面解锁方式。

在产品首页，Speak没有给任何新用户引导流程，只有一个简单的问题：“你为什么想学英语？”然后用户就可按下“开始”按钮说话。每个用户都会用不同的情绪、语音语调回复不同的答案。Speak会根据这些信息为用户构建个性化体验。

不过，Connor曾表示，虽然语音到语音模型效果越来越好，但“语音并不总是最佳的人机交互方式，很多时候，打字和点击图标是更快捷的方式”。因此，Speak试图探索一种“混合界面”，让用户可以在随时都自由选择说话还是打字。

同时，为了更好地理解用户，Speak在后台运行时，例如在夜间，模型会利用闲置GPU资源分析用户数据，从而解析用户感兴趣的课程，并在第二天的学习中给用户推送新的课程。在Connor看来，“思维模型”真正的价值正在于，即使用户没有使用产品，模型也在后台不断处理着用户数据，分析用户需求。这种模式也决定，Speak的产品迭代依赖于模型有更强的语音识别、理解和生成能力。

2022年，Speak遇到OpenAI，PMF又有了质的飞跃。

绑定OpenAI，自建AI团队

从2022年起，OpenAI连续四次投资Speak。

OpenAI Startup Fund成立于2021年5月，已投资数个AI应用项目，包括Descript、Anysphere、Diagram、Harvey AI、Kick、Mem和Speak等，涉猎AI音视频编辑、AI编码工具、AI产品设计、AI法律顾问、会计软件等多个领域的落地应用。其中，Speak是唯一一个教育类软件。

对于投资的创业项目，OpenAI通常不仅给钱，还给技术。Speak也不例外。

2023年3月，Speak先后官宣了和OpenAI的三项合作：

3月1日，宣布成为OpenAI全新“Whisper”模型API的首发合作伙伴。Whisper有更强的语音识别能力，在处理带口音的语音以及无缝处理多语言语音（代码切换）方面的表现更好。
3月14日，宣布其作为早期访问者，将GPT-4接入其“AI tutor”中，能让AI tutor实现高度个性化和上下文相关的反馈。同时，GPT-4能够生成更高准确度和连贯性的文本，让用户和AI tutor进行更自然、更有针对性的互动。
3月23日，Speak宣布与OpenAI合作启动ChatGPT插件的Alpha版本，用户可从ChatGPT的界面直接访问Speak。

但Speak并未把全部希望寄托在OpenAI上。在和OpenAI深度绑定的同时，Speak也在2023年着手搭建了自己的AI团队，开始利用过去几年从产品上积累的数据集微调自己的语音模型。

2024年，Speak在官网博客中宣布升级了核心语音识别系统。

系统升级前，Speak分别在iOS和Android系统上运营着不同的ASR（自动语音识别）系统，还会用自有数据训练端侧小模型适配特定型号的移动设备，也会采用第三方语音识别服务。

但长此以往，Speak便发现了一些弊端。例如，为了支持比较老的设备，Speak使用了参数规模更小、计算能力较低的模型，对语音识别效果较差；第三方语音识别服务往往也难以识别口音较重的语音，会影响用户体验；Speak必须维护iOS和Android两套语音系统，导致“事倍功半”。

而系统升级后，Speak基于内部数据集微调了Conformer系列的语音识别模型，该数据集包含了用户数千小时带有浓重口音的英语语音音频。

此外，Connor认为：“模型评估非常困难且重要。对于我们的机器学习团队来说，最重要的可能是评估，特别是对于大型语言模型经常执行的开放式任务，如果你能够提炼出完美的评估标准，你基本上就提炼出了你正在优化的目标问题。”因此，Speak根据用户数据，构建了自定义测试集，主要评估语音模型根据音频转录单词的单词错误率（WER）。评估发现，微调过后的模型单词错误率比通用模型降低60%以上。

内部Speak测试集上的单词错误率（WER），图片来源：Speak官网

目前，Speak微调的Conformer-CTC模型仅用于英语语音识别，但Speak透露，该模型未来也将扩展到西班牙语等其他语言中。此外，Speak还在开发超出单词之外的其他语音和语言模态（例如，用于发音反馈的音素）。

在用自有数据微调模型的同时，Speak依然抓紧每一次与OpenAI合作的机会。因为在Connor看来，“语言学习和实时对话练习，是语音到语音技术的最佳用例，因此我们抓住机会与OpenAI合作，并将这项技术深度嵌入我们的核心体验中。”博客写道。

2024年10月1日，Speak又与OpenAI合作测试了GPT-4o的实时API，推出Live Roleplays，使用户能够在各种角色扮演情境中进行沉浸式、逼真的口语练习。借助GPT-4o上的实时API，Speak的AI tutor可以像人类教室一样快速或更快地响应，并能够理解并提供关于语音各方面的反馈，而不仅仅是纯文本转录，如语调、发音、韵律等。

不过，Speak在博客中写道，语音到语音模型的指令跟随能力仍然不如文本模型，目前还不擅长更细致的语言学习特定任务，如发音指导和反馈。

语言学习界最懂AI的公司

2024年12月，Speak宣布完成7800万美金C轮融资，由Accel领投，OpenAI Startup Fund、Khosla Ventures和Y Combinator等跟投。本轮投后估值10亿美元，Speak也被看作大模型浪潮中第一家真正以C端应用立足的独角兽。

除获得资本青睐外，Speak的产品表现也得到市场认可。据“投资实习所”的信息，截止2024年12月，Speak的ARR已经接近5000万美元，年增长率达到100%。

Speak主要的商业收入都来自C端，没有免费版本，只为用户提供七天免费试用，之后就按月或按年收费，收费标准分为2档：

Premium计划：$99.99/年，每月2000个AI tutor积分；
Premium plus计划：$234.99/年，每月10000个AI tutor积分。

（AI tutor积分对应的是用户和AI Tutor的对话字数，每和AI对话一个词即1积分。）

在Speak的实际测试中，2000家教积分学习5天就能消耗完，这也意味着对于有固定学习习惯的用户而言，Premium Plus方案更划算。

2024年，Speak也开始拓展to B业务。Speak for Business可以练习特定的商务对话，例如与供应商和客户的专业讨论等。目前，Speak for Business拥有超过200个客户，员工采用率为85%。

Speak为何能在一众语言学习市场激烈的竞争中脱颖而出？答案或许就是“聚焦”二字。

Speak自创立之初的目标就很聚焦，围绕“哑巴英语”这个核心痛点打造产品体验，并一直坚持产品导向的思路，持续迭代PMF。最近的访谈中，Connor表示Speak一直非常注重课程内容，现在内部仍会对AI tutor的课程内容进行A/B test。

同时，两位创始人很清楚，其产品体验的迭代很大程度上依赖于底层AI模型的能力。因此，在OpenAI强势爆发后，Speak主动拥抱大模型。找到OpenAI这个强势的合作伙伴后，Speak也并未在AI的火爆中迷失方向，盲目高估模型的能力，而是组建自己的AI团队，利用多年积累的用户数据微调语音模型，升级语音识别系统，继续迭代产品功能。

套用近两年很时髦的概念，Speak是一个更加“AI原生”的产品。相比其他语言学习应用，Speak更像一家技术公司。按对话积分消耗收费的模式，也和大模型按token消耗量计费的模式很相似，甚至营销文案也相应调整为类似“20分钟内说100句话”的口号。

同时，为了在单一市场打造最佳产品体验，Speak也十分注重产品设计和营销手段的本地化。在正式进入韩国市场前，Speak做了充分的市场调研，并在后期搭建了一个世界级的本地营销团队，根据韩国市场的用户特点定制相应的营销策略，创建了一个独特的品牌形象。

Andrew Hsu曾透露，截止2024年12月，Speak应用的下载量已超过1000万次，每位用户每天的使用时间约为10-20分钟。

目前，Speak正在将韩国市场的成功经验逐渐带到其他市场进行验证。2022年底，Speak开始开拓日本市场；2024年下半年，Speak在中国台湾市场的收入开始快速增长。

不过，Speak目前主要活跃在不以英语为母语的市场。相比之下，欧美等以英语为母语的市场则由Duolingo、Babbel等老牌语言学习软件占领；微软、谷歌等大厂也对语言学习应用虎视眈眈，真正激烈的竞争风暴或许还没有到来。

本文链接：https://www.928118.com/chuangye/219.html

文章评论

共 0 条评论，查看全部

这篇文章还没有收到评论，赶紧来抢沙发吧~

资讯分类