NotebookLM是谷歌的ChatGPT时刻吗?

并不擅长toC产品的Google推出的NotebookLM在近期刷了屏,AndrejKarpathy称NotebookLM让他想起了“ChatGPT时刻”,SamAltman也公开表示,“NotebookLM很酷”。

NotebookLM的前身是ProjectTailwind,最初是Google推出的一款实验性的AI工具。它允许用户上传多种格式的文件,随后用户可以用对话的方式和这些文档进行交互,而近期推出音频总结更是能用AI将文档总结生成播客,让用户用“听内容”的方式获取信息,最终引起了产品的病毒式传播。从一个“20%项目”快速增长到拥有6万Discord社群成员的现象级产品。

本篇内容是红杉美国的PatGrady和SonyaHuang对NotebookLM的核心开发团队成员的访谈。其中,RaizaMartin是NotebookLM的产品负责人,而JasonSpielman是技术负责人。

(1)上下文是LLM交互的一个重要特点,只有基于上下文才能创造粘性极高的用户体验;

(2)今天AI应用的开发处于“拟物化”的阶段,和iOS早期一样,这是因为还有大量用户才刚开始接触到AI,开发者需要通过用户熟悉交互或者场景来让他们习惯和AI互动;

(3)ClaudeArtifacts的动态UI也许是AI交互的未来形态之一。

一、NotebookLM是Google的ChatGPT时刻吗?

SonyaHuang:虽然NotebookLM只是一个实验性的尝试,但它很快就形成了病毒式的传播。所以大家都把NotebookLM看作Google的ChatGPT时刻,你们怎么看这个观点?

RaizaMartin:对我来说,把NotebookLM比成“ChatGPT时刻”可能太大了,但我也看到很多人通过项目感受到,原来AI是这样的、也体会到了AI的能力,从这个层面上,NotebookLM和ChatGPT带来的影响可能是类似的。

JasonSpielman:我在第一次听AudioOverview的时候,随着第二个主持人声音的出现,音频总结变成了一个播客的时候真是一种令人震惊的体验。但我认为,更本质上,Gemini1.5Pro可以很好地处理这些复杂文本,并以相当简洁的方式呈现出来,这一点也很重要。所以对我来说,语言模型和声音的结合确实是一个很重要的时刻。

SonyaHuang:你们自己会怎么定义NotebookLM?

RaizaMartin:Notebook是一个AI驱动的研究和写作工具,今天很多人可能会用它来为某个内容生成语音总结或者Podcast。

SonyaHuang:作为一个KillerApp,Notebook是怎么诞生的?是偶然还是刻意设计的结果?

RaizaMartin:我们一直在研究多模态的生成和输出,我认为声音是下一个重要方向,在这个基础上我们选择了对话的形式。Notebook发布之前,我们并不知道它会成为一个所谓的Killerapp,我们只是觉得它的体验会让人感到很新奇,但从结果来看,人们和这个产品的交互体验比我们想象中更惊人。

去年我们一直在做AITestKitchen这个项目,Notebook最初可能只是一个完成度只有20%的项目。当时我们团队中有一位工程师在开发一个叫做“talktosmallcorpus”的产品,我一开始并不理解这个项目,但后来我和他交流时,他解释说,这个项目的核心思想是利用LLM和自己的数据对话,从而从中提取有用信息。当时我就觉得这个想法很有趣。

AITestKitchen是Google在2022年推出的一个实验性平台,最初在Google的I/O开发者大会上亮相,目的是共同负责任地学习、改进和创新AI。AITestKitchen提供了多种交互式实验,让用户能够体验到最新的AI技术,例如使用LaMDA对话模型,用MusicFX生成音乐,或者通过ImageFX将文字转化为图像等等,平台也允许用户提交反馈。

也由此,我会继续想这项技术具体能有哪些应用场景。作为一名成人学习者,我突然意识到,如果我能利用LLM与教科书进行对话,那将是一件很有意义的事情。我能想象到这项技术不仅可能改变我的生活,还可能改变许多人的生活。

从那时起,我们就开始着手考虑如何打造这项技术的第一个版本,并将其介绍给大众。去年5月,我们推出了ProjectTailwind,这个项目就是这个想法的具体实现。用户可以上传一个PDF文件作为信息源,然后与之进行对话交流。

JasonSpielman:我认为NotebookLM最独特的地方在于它是基于源文档的(source-grounded)。在开始做这个项目时,我都没意识到我们日常创造的每样东西,往往都是基于某些已有的资料或文档。所以目前来说,我会把它称为一个基于源文档的工具。但实际上,它正在发展成为一个用于创作和其他多种用途的源文档工具。

SonyaHuang:Notebook的播客和音频总结的体验确实很神奇,背后的技术原理是什么?比如,为什么它听起来如此逼真的?生成的对话是怎么做到能吸引听众的?

RaizaMartin:首先,这绝对是团队协作的成果。其次,能实现这些体验的核心还是得益于Google强大的模型能力。最关键的是Gemini1.5模型,它能够处理用户输入到NotebookLM的所有数据,并在此基础上生成全新的内容。NotebookLM的音频功能也是基于Google的语音模型实现的。这些不同模型的结合最终造就了Notebook的独特体验。当然,除了模型本身的能力外,我们团队在如何有效利用这些模型方面也下了不少功夫。

在Gemini1.5和音频模型之间还有一个很关键的组件是一个叫做ContentStudio的工具。ContentStudio在用户提供的内容源到最终生成的播客的过程中扮演了内容编辑的角色。基于ContentStudio,Notebook在生成内容的过程中拥有了某种程度上的“创作空间”。

SonyaHuang:你们是否考虑在未来把Studio这个功能开放给用户?比如用户可以自己调整内容,让内容更有趣一些,或者更正式一些?

RaizaMartin:现在使用Notebook的用户很多,对于我们来说,下一步就是让用户有更多可控性,让他们可以自己调整生产的内容。其实一开始我听到这些需求,我会直觉性地反应说:“好,那就把这些调节选项加上吧”。但我现在在尝试更加谨慎地思考这个问题。大家喜欢上这个功能是因为它让人感到惊喜。那么,我们怎样才能在保持这种惊喜和魔力的同时,还能给用户一些可控性?

PatGrady:今天几乎所有AI产品都还在围绕对话框来展开,你们是怎么想到让用户“听内容”这件事的?为什么人们会想要通过听播客的形式来了解某些信息?

RaizaMartin:这件事来自Jason之前提到的一点,那就是:我们要怎么以一种人们易于理解也易于接受的方式来呈现新的事物,让他们愿意去尝试?当我们想到可以让用户上传素材,然后生成新的语音内容时,我们就在想,到底能生成哪些语音内容呢?

Google的这个语音模型非常强大,既可以生成独白,也可以生成对话,还可以让用户选择生成什么格式的内容。但真正能引起人们共鸣的点在于,播客是一种对话形式,它能做的不只是把文本转成语音,让我们去听朗读的文本。我认为,一旦我们看到这种形式的实际应用,就会知道,这就是我们要去做的事情。

二、NotebookLM的用例

RaizaMartin:我在前面提到过NotebookLM在教育场景的usecase,我看到很多学生和教育工作者在使用NotebookLM,我觉得这件事对我个人来说很有意义。但令人惊讶的是,我发现有很多人在工作中也会使用NotebookLM。

要熟悉这些内容到能够销售的程度是很困难的。所以销售团队内部通常的做法是,或者说在有NotebookLM之前的做法是互相询问。一个典型场景是,他们会提出类似这样的问题:“Joe,这个产品到底是怎么运作的?我该怎么向客户推荐?”等Joe回复后,他们再把回复复制粘贴到邮件里,稍作修改就发出去了。

JasonSpielman:我最近和一个做销售的朋友聊天,他也提到自己做了一个Notebook,在和客户交流中遇到某些问题不清楚答案的时候,就会和这个Notebook对话,然后得到对应的答案。我认为这种知识分发的方式对于大规模销售团队或数据中心来说非常有帮助。

另一个我觉得很有意思的usecase是,很多在VC行业工作的人在日常工作中要看很多公司信息和对应的文件,我有位VC朋友说,他现在会把收到的文档或deck放进Notebook里面,从而更加快速地处理这些信息,工作效率差不多提高了10倍。

三、如何设计出好的AI-native产品?

SonyaHuang:你们在产品设计上做了哪些取舍来让Notebook好用且便捷?

JasonSpielman:我想先说明的是,我们到现在还是在持续不断地做这些产品层面的决策,我觉得我们现在的重点在于快速推出产品,然后通过和用户密切互动来理解什么是最好的、他们想要什么。今天模型能力迭代得很快,很难说基于模型能力再来决定做具体什么事情。

但具体来讲的话,我认为我们有一个决策做对了,就是让左侧的Source栏很突出。我认为这是一个基于源文档的项目,我们需要明确表示你是在与你上传的源文档对话。所以我认为左侧的Source栏是这个产品的一个关键部分。另外一点就是我之前提到的,一键生成音频总结对于产品传播来说也很有效,我们在产品设计上整体倾向于这种简单的体验。

RaizaMartin:我想补充一点我们在产品层面上的考虑,特别是在产品优先级上,我们一直在思考的问题是如何让一个新事物变得很直观。要做到这一点非常困难,特别是像“首先用户必须上传一个源文档”这种细节,用户通常会对这一步产生抵触,他们可能第一反应会问“为什么?”,因为在使用ChatGPT或Gemini的时候第一步并不需要上传任何文档,直接就能用。所以我认为在“上手即用”这个方向上,我们还有很多工作要做。

SonyaHuang:你认为在让人们适应这种新的AI原生体验时,还面临哪些最大的挑战?

JasonSpielman:我觉得今天AI产品设计所处的阶段可以总结为“拟物化(skeuomorphic)时代”。拟物化是指用虚拟对象来映射现实世界。在早期iOS中可以看到这个特点,比如Apple的Note应用顶部有皮革边框,记事本页面是黄色的,这是为了帮助用户更容易从物理世界过渡到虚拟世界。

我觉得今天我们在AI产品上的实践也处于类似阶段,我们首先要构建一些UI来满足用户当下的需求。但我想强调的是,在不断给用户创造新奇体验的同时,人们也要意识到,对许多用户来说,这是他们第一次与AI互动。

SonyaHuang:我认为Midjourney做得非常好的一点是,它很好地解决了用户不擅长提prompt的问题。在你看来,有没有哪些AI应用在解决这些UI挑战也做得很好?

RaizaMartin:我最近用了Pika,我很喜欢Pika的效果预览功能,通过这个功能,用户可以很清楚地看到上传图片后会发生什么、得到什么。在看到这些效果预览时我就觉得这些尝试很有趣,所以我上传了一张饮料的图片,然后选择了一个蛋糕效果,想把饮料变成蛋糕。等待饮料变成蛋糕的过程让我兴奋不已,我甚至当时就在想是不是可以付费了。所以我觉得,这种效果预览不仅可以激发用户使用产品的意愿,甚至还可以驱动付费。

JasonSpielman:我觉得ClaudeArtifacts做得很不错。我认为他们在代码生成方面做得非常出色。我觉得我们今天所处的阶段是怎么平衡AI和人类之间的关系,我们想要创建一个AI产品,绝对不是想要取代一群人的工作,而是想提供更好的支持。我之所以认为ClaudeArtifacts是一个完美的例子,就是因为我们在和AI交流的同时,它就已经在开始按照我们的交流去构建一些东西了。

SonyaHuang:在你看来,NotebookLM的产品思路和Claude相比有哪些异同?

JasonSpielman:首先,我们和Claude最根本的不同是我们还是一个围绕特定文档来展开交互的工具(source-groundedtool)。

RaizaMartin:围绕这一点来说的话,在LLM交互中,围绕上下文展开是一个很重要的特点,我觉得也正是上下文的存在才能创造粘性极高的用户体验。Anthropic、OpenAI以及Google等所有参与LLM研究的人肯定都知道这一点,但我认为,关键在于在什么时候引入这个特点,以及基于什么样的交互界面?

这也是我对于NotebookLM感到兴奋的原因。因为我们从一开始就突出了上下文交互这一点。当用户意识到source-grounded的重要性时,就会发现,NotebookLM会是他们在寻找的工具。所以我们当下也会更专注于这一点,在其他LLM工具还在专注其他usecase时,我们会在这个方向上先走得更远。

SonyaHuang:你之前提到Chat是AI产品设计中的一种拟物化交互界面,NotebookLM现阶段在尝试更前沿的方式,这种形态可能会是什么样子?

JasonSpielman:我个人对动态UI很感兴趣,ClaudeArtifacts就是一个动态UI例子。但总体上我觉得我们目前还处于一个探索阶段,考虑到用户是不是也能很好地理解AI产品的意图,我们能做的事情是比较有限的。所以现在我们要平衡这种AI带来的无限可能和面前的有限需求。

RaizaMartin:我会更多地考虑新的模式。我自己做了很多原型设计,也实验了很多自己的行为。我最喜欢的一个尝试是我可以边走边和我的LLM交谈,或者说和一整个AI生态系统进行交互。

我个人最近最喜欢的例子之一是,我开始通过这种方式来“写”日记。不是我自己来写,而是通过来回对话,让LLM为我创建一个日志,然后基于这个日志形成一个可视化的内容,呈现的信息大致是,这周我不开心的天数比开心的天数多,哪些是让我开心的事情,哪些是让我不开心的事情。我认为在交互中会产生更多丰富的内容。

我们现在尝试的这种基于一个特定源文档的AI有一些非常实用的usecase,主要集中在工作和学习场景。但个人用例也非常吸引人,所以我在思考,如何把这些个人产品实践的经验带回到NotebookLM中,也许是在MobileApp里。

四、NotebookLM的未来

PatGrady:你们往前推进这个项目的思路很像一家创业公司,团队足够精简、和用户交互足够多、产品快速迭代。这和大家印象中Google做事情的方式不太一样。加入Google对你们做NotebookLM有什么帮助吗?

RaizaMartin:Google做得比较好也比较特别的两点是,首先,在模型完善之前,我们就能接触到它们,提前了解计划推出的功能,这能帮我们从不同的角度去思考该如何开发产品,从而可以更好地去规划该怎么完善产品的整个开发流程。其次,我们团队里的人都非常聪明,很有才华,也很善于合作,而且都很希望能打造出好的产品。

所以,作为产品的开发者,能够同时集齐这两大要素就很幸运了,之后只需要去执行交付就可以。只要继续做下去,就一定能做出有意思的产品。

我觉得,我们做的一件打破常规的事是,我们最在意的是先把产品做出来。因为我之前在Google工作过,我经常会想这样做会不会产生这样那样的影响什么的,要考虑的事情太多了,但其实一旦我们的目标是推出产品,就必须不惜一切代价去实现它。

JasonSpielman:现在很多人会误以为Google做事情很慢。但在Google工作的7年里,我其实发现事情推进得非常快。有些团队的规模很大,他们每天影响的用户能有几个亿,所以会在决策上更加审慎。我们团队现在其实是处在一个最好的位置,既拥有大公司拥有的规模和数据优势,但也足够精简,我们团队大概有10人,所以我们的速度也会很快。

SonyaHuang:你们对NotebookLM下一步的规划是什么?

RaizaMartin:说实话,就是继续往下开发NotebookLM。我们希望用户体验能更好,能让他们真的把NotebookLM用起来,让人们愿意留下来继续用它。

PatGrady:你们觉得现阶段NotebookLM还有哪些是没做到的?

JasonSpielman:我比较期待能增加写作功能。比如很多人都会做Q&A调查,然后基于Q&A收集到的答案来完成新的内容创作,所以我很期待能让NotebookLM参与到用户创造内容的整个过程里。

SonyaHuang:NotebookLM生成的内容质量确实高,对我来说,甚至已经可以取代人类做的播客了。但为什么你们会认为现在NotebookLM做得还不够好,还不能取代人类做的播客?

JasonSpielman:NotebookLM的音频交互其实和播客是不同的媒体形态。虽然NotebookLM生成的音频听起来是播客,但Raiza举的这些例子也很好地说明了,人们会把它用在各种各样的场景中。我觉得可以去想为什么今天社交媒体上有很多reaction视频。人们现在来听这期播客不仅仅是因为我们,也是因为他们想听到你们作为投资人对这个领域的看法,所以当我们在讨论播客的时候,不同立场、背景的人之间的讨论互动也是要考虑到的。

我最喜欢的一个usecase是,最近有人说,周末时,他们的大学群里突然因为某件事大家聊了很多内容,不过他们并没有选择在当时去读这些消息,而是把它们全部复制粘贴到一个文档中,放到周一早上开车上班的时候听,我觉得这真的很棒,个性化生成就是这样的。

SonyaHuang:今天的NotebookLM除了有Podcast这个Killerfeature之外,还提供了一个面向很多场景应用的horizontal的交互的界面,你认为接下来还会做什么?是继续强化播客这个功能吗?比如有没有可能可以生成一段YouTube视频?

RaizaMartin:输出视频的话需要看成本什么时候能降下来。

对于我们来说,首先,我们现在想要实现的是,让用户能够导入各种类型的内容,然后用AI创造出新内容。播客当然是我们想要继续探索的一种输出形式,因为我们已经看到人们都很重视播客。

其次,我们也想往其他方面发展,做一些更实用的东西,因为每个人的偏好都不一样,甚至就在两三天前,还有人问我,“能输出播客确实很好,但你能让输出的代码质量更高一点吗”?这个方向也很好,但对我们来说都只是roadmap,我们确实要想想怎么去探索输出的形式。

THE END
1.electron25+vue3+pinia2跨端chatgpt聊天应用electron-chatgpt布局结构 代码语言:javascript 复制 <template><!--//顶部工具栏 --><Toolbar/><!--//侧边栏 --><ChatNew/><Scrollbarclass="flex1"autohide size="4"gap="1"><ChatList/></Scrollbar><ExtraLink/><Collapse/><!--//主体区域 --><Main/></templatehttps://cloud.tencent.com/developer/article/2295739
2.请教,这是用chatgpt写的CADLISPD脚本,需求是画一个由双直线组成请教,这是用chatgpt写的CAD LISP脚本,需求是画一个由双直线组成的矩形类似这样, 每次画的矩形大小都有我手动输入长宽。现在用chatgpt写的脚本出现的是重合的双线,没有间隔7毫米 (defun c:QW (/ length width pt1 pt2 pt3 pt4 pt1-inner pt2-inner pt3-inner pt4-inner offset) (setq length (gethttps://ask.csdn.net/questions/8156292/54900971
3.强大的Kimi:中国版ChatGPT平替Keywords: AI, AI助手, ChatGPT 4o, 编程助手, 代码注释, 论文写作助手 ? 本文介绍如果玩转 Kimi,以更有效地开展学术研究(如文献查找、文献翻译、文献阅读、论文写作、论文降重等),提高办公效率(公文写作、PPT 助手、代码生成等)。 ? 1. Kimi 介绍 https://lianxh.cn/details/1423.html
4.BELLE/eval/ChatGPTBreadcrumbs BELLE /eval / ChatGPT_Score.htmlTop File metadata and controls Code Blame 185 lines (162 loc) · 671 KB Raw <!DOCTYPE html> ChatGPT获取分数 body { font-family: Arial, sans-serif; margin: 0; padding: 20px; background-color: #f3f3f3; } h1 { text-align: centerhttps://github.com/LianjiaTech/BELLE/blob/main/eval/ChatGPT_Score.html
5.每个前端开发需要了解的10个强大的CSS属性快来免费体验ChatGpt快来免费体验ChatGpt plus版本的,我们出的钱 体验地址:chat.waixingyun.cn可以加入网站底部技术群,一起找bug,另外新版作图神器已上线cube.waixingyun.cn/home 本文介绍了CSS(层叠样式表)的基本概念和作用,然后深入讨论了10个常用的CSS属性。这些属性包括边框(border)、背景(background)、定位(positioning)、盒模型(bohttps://article.juejin.cn/post/7249740342751526973
6.ChatGPTAGIX使用groovy语言或GPTs导入功能自定义Agent为你的AI助手扩展任何能力! 快来打造属于自己的AGI吧! 插件特点 本插件UI部分基于开源项目ChatGPT-Next-Web在此鸣谢所有的贡献者 云端模型:集成70+全球顶级大模型 持续更新中 OpenAI ChatGPT GPT-3.5、GPT-4.0系列模型、讯飞星火3.0(SparkDesk)、Alibaba 通义千问系列、Claudhttps://plugins.jetbrains.com/plugin/21852-chatgpt-x-copilot-context-aware--function-calling
7.前端全局样式个性化扩展(UI定制)2、使用任意ChatGPT软件通过问答方式获取样式设置具体内容 示例如下(框选部分内容即可拿来使用): 六、注意事项 1、注意使用的Class层级不同,其生效范围也不一样(不限制层级则可能全局生效) 2、各控件开放Class即可用于全局,也可以作用于单个控件(根据不同CSS写法) 3、【支持范围】目前开放Class只支持PC端页面 4、【https://vip.kingdee.com/article/612244233591941376
8.六月科技大事:华为上调2023年手机出货量目标张勇卸任阿里巴巴华为公司将发布一款直接对标 ChatGPT 的多模态千亿级大模型产品,名为“盘古 Chat”。据介绍,盘古大模型于 2020 年 11 月在华为云内部立项成功。这款“盘古 Chat ”预计将于今年 7 月 7 日举行的华为云开发者大会 (HDC.Cloud2023) 上对外发布以及内测,产品主要面向 To B / G 政企端客户。>>查看详情 https://www.ithome.com/0/703/101.htm
9.2024全球汽车零部件百强出炉:宁德时代第46月25日,小鹏汽车董事长何小鹏分享了其在美国加州针对特斯拉FSD V12.3.6的版本和Waymo的自动驾驶体验。他表示,FSD在数月里有很大的进步,小鹏也会向FSD学习他们优秀的功能点和用户体验部分,相信2025会是完全自动驾驶的ChatGPT时刻。 新闻来源:工创联早8点 https://www.yoojia.com/article/9524474949684855063.html
10.如何将网页的内容给chatgpt将网页内容导入word如何将网页的内容给chatgpt 将网页内容导入word 在互联网时代我们经常要在网页中找资料,文字进行复制粘贴调整格式还好,但是有时网页中的表格复制到Word中,表格的边框线全没了,怎么办呢?那么下面就由学习啦小编给大家分享下把网页表格复制到word的技巧,希望能帮助到您。https://blog.51cto.com/u_13341/9668652
11.《ChatGPT+Excel智能办公从入门到精通》课件第1章制表入门:掌握第1章 制表入门:掌握Excel基本操作1.1 创建一个工作表1.2 表格文本自动排列1.3 表格格式优化设置本章小结课后习题学习目标1.1 创建一个工作表1.1.1 新建一个空白工作簿1.1.2 重命名并输入数据内容1.1.3 设置工作表https://www.renrendoc.com/paper/324606662.html