王俊煜

最近我接了两个短期的产品顾问工作。这两个产品所在的领域跨度很大,一个是身心灵产品,另一个是面向学龄前儿童的产品。

这两个项目和阅览室以及AI产品并行在做,看起来我似乎需要很多个分身。不过我做事情不太依靠直觉和所谓的灵光一现,我也不觉得自己有什幺天赋,工作更多是依靠方法。因此,担任这种顾问工作,理想状态下我还是主要扮演“教练”的角色。创新其实没有什幺神秘的—不能说人人都适合做创造性的工作,但起码也不是少数人的特权。如果通过我短期的参与能让团队掌握这些方法,之后即使我不再参与,团队也可以持续创新,这就蛮有成就感的。

通过这样的合作,我也可以多向市场上优秀的产品团队学习,取长补短。这两个团队的执行速度和能力都很厉害,这是我自己很欠缺的。他们对于市场调研、竞争形势、增长策略、数据分析等等方法也都很擅长。我擅长的,则是通过产品设计的创新带来突破。

这两种不同的做事方法,可以简单地归纳为宏观路线和微观路线。我最早是在Julie Zhuo写于2014年的文章中读到这种分法的,她当时是Facebook的产品设计师。实际上,在成功的产品中,这两条路线最终总是相遇的,两种做事方式都很重要。从宏观出发,假如能准确匹配“人”的需求,可以诞生像Chrome这样的成功平台产品;但假如仅考虑战略而忽视了“人”需要什幺,也可能造成Google+那样的史诗级失败。而从微观出发,假如从一小群人身获得启发,预见到大众市场的未来,可以诞生像抖音这样的产品;但假如少数人的需求最终无法成长为足够大的市场,无法在商业上成立进而失败,这样的例子更是数不胜数。

两种路线都重要,但出发点不同,做事风格也会有很大区别。从国内的情况看,好像经过这几年的“内卷”,现在大家都只掌握宏观路线,以至于要感慨“古典”产品经理的灭绝—朋友的公司最近在找用户端产品经理,收到的简历擅长的都是业务策略增长之类的,从用户需求出发做产品的技艺看起来似乎失传了。

更糟糕的是,市场上流传的各种产品成功的故事,总会将其成功归功于某个“神”的灵机一动,以至于人们总以为这些技艺是天赋或直觉,而不是一种可以学习的专业方法。这也是我做这些顾问工作主要的意义。

方法可以习得,有些东西则难以在短期内迅速积累。宏观路线和微观路线都涉及到“人”。但对于前者,“人”作为一个数字存在;对于后者,“人”是作为活生生的个体存在的,是探索的起点。我猜,读者喜欢读这本杂志,也是因为在这本杂志里能看到看似冷冰冰的商业故事背后的人。所谓设计,就是创造性地解决用户的问题。要解决用户的问题,就需要从“人”出发,对“人”有丰富立体的了解。这就是所谓的洞察。

好的洞察才能带来好的创新。好的洞察一定可以带来好的创新—只要掌握了方法。

洞察可以通过研究来获取,但一般来说,不如长时间和同一群人打交道积累下来的直觉。最精彩的那种洞察,就像薛定谔的猫一样介于共识和非共识之间—说出来的那一刻每个人都会恍然大悟,“难道不就是这样的吗?”,但在说出来之前,又从来没有人认真对待过它。

所以,我很清楚地知道,即使我在担任产品顾问时诞生了什幺了不起的想法,也还是要归功于团队自身的洞察。我只是用一些方法把它的能量释放了出来。获得之前没有的洞察,也是做顾问项目的另一个收获,我还挺喜欢跟着团队去做用户访谈的。

最近OpenAI发布了ChatGPT在电脑上的官方客户端。其实在此之前,市场上已经有不计其数的非官方客户端了,也就是俗称的“套壳”,我的电脑上就安装了差不多10个。由于GPT的官方接口完善,这些客户端的开发门槛并不高。大家使用的接口都一样,只能在界面设计和用户体验上“卷”。

我原本以为,在这样的竞争格局下,所有可能的功能都已经被人做过了。但ChatGPT的官方客户端有一个很小的功能—截图—吸引了我,让它很快变成了我在电脑上默认使用的客户端。

它的用处是什幺?我之前觉得,“聊天”不一定是终极形态,很大程度上考虑的是把ChatGPT们作为生产力工具的场景。在电脑上使用它们,本来就是为了完成很多工作任务。而这些素材要先交给大语言模型处理,再将其输出的结果放回去,过去人们只能来回复制粘贴。像图片、论文等素材来回复制粘贴还不太方便,得先下载保存,再重新上传。

现在,直接截图识别就可以。

实际上,像GPT-4这样的大语言模型支持图像识别已经有一段时间了,它不仅可以识别图片中的文字、物体,还可以解读一些更深层次的语义。由于这个接口对所有人都是开放的,其实各种非官方客户端想加这个功能也轻而易举。

这当然是从用户洞察出发的微观路线。即使是这幺拥挤的赛道,居然也有这样的机会没有被人发现。

其实,如果说GPT这个大语言模型本身是宏观路线的产物,那幺将GPT和聊天结合,也就是从GPT演进到ChatGPT,就是微观路线的产物。Sam Altman之前接受采访时也感慨过,在ChatGPT之前,GPT对应的接口已经公开发布了10个月,OpenAI一直以为别人会把ChatGPT做出来,但也没有。这个洞察今天说起来实在太显而易见了,在全球,智能手机上最流行的App都是聊天软件,那为什幺不拿大语言模型来聊天呢?似乎根本不可能有别的答案。但在2022年11月之前,就是没有人这幺做。这就是薛定谔的猫。

所有人一窝蜂地都去做大模型,是宏观路线驱动下的结果,市场上涌现的众多AI小应用,则是微观路线的体现。这两条路线,目前相遇的地方还不多。

宏观路线也有宏观路线的道理,如果用户需求是确定的,依靠资源、渠道、价格等等优势可以打败对手,那幺采用宏观路线就可以。例如,Google认为自己能比OpenAI更快地将类似ChatGPT的产品规模化、商业化,那它的确不太需要在产品上做什幺创新。在中国市场,我们对类似的故事太熟悉了。假如“大模型需要国产化”是一个准确的宏观判断,这就是一个属于做题家们的解题竞赛,不需要花时间去探索用户需求,不需要花时间去试错。

问题是,今天的AI还没有到这一步。连聊天界面都还有这幺简单的提升空间,在聊天之外更是大有作为。现在花时间去复制别人的界面、做别人做过的事情,真的是浪费生 命。

跟在别人后面“抄答案”,别人的答案也不一定是对的呀。他们只是答题速度比你快一些而已。OpenAI做的一些功能,等到Google们跟上的时候,OpenAI都已经要下线了。有洞察,才不会陷入同质化竞争;有属于自己的洞察,也一定不会陷入同质化竞争。

OpenAI自己革自己命的速度更快。5月到6月正是全球技术公司密集召开年度开发者大会的季节,Google和微软的年度开发者大会都已经结束,苹果的在6月初。

OpenAI抢在Google的年度开发者大会之前一天在自己的办公室里面举行了一个很小型的发布会,发布了GPT-4o。这场四两拨千斤的发布会十分精彩,直接抢走了Google的风头。前面提到的ChatGPT截图功能只是利用现有模型能力做的一个小的界面改进,GPT-4o几乎彻底改变了人和AI交流的方式。除了现场演示,OpenAI也将录制的十余条演示小视频放在了YouTube上,这些视频着重演示的是AI和人类实时对话的能力,以及AI可以“看见”东西后能做的许多新的事情。

观看这些视频的时候我连连惊叹。一年多前GPT-4发布时OpenAI也展示过其视觉理解能力,但只是静态图片识别。当时我想,当这个东西反应速度足够快、成本足够低的时候,实际上是可以代替人眼来看世界,或者“待”在屏幕上帮我处理工作的,那时不知道会是种什幺体验—没想到它这幺快就优化到这个程度了。可别看不起优化,有些东西优化着优化着,量变就积累成了质变。

想象是一回事,见到是另外一回事。当用户可以像和真人视频聊天一样和ChatGPT对话,我想,OpenAI自己又重新定义了新一代的AI产品形态,这离“iPhone时刻”更近了一些。现在我们用的文本版ChatGPT,似乎一下子就过时了。而竞争对手还在跟随ChatGPT之前的步伐。

看着下一世代的技术以这种速度被推向市场,我觉得在现有产品形态上仅仅做一些局部改进的意义实在不大。不需要在这个层面竞争。

虽然OpenAI支持同时处理图像、音频、文本的GPT-4o吸引了大部分注意力,Google和微软还是有自己的亮点。Google主推“超大上下文窗口”,一次能处理百万字级别的内容。微软则强调直接在电脑上运行的“小语言模型”—我们之前使用的大部分大语言模型都需要在云端运行。

大半年前一个大我10岁左右的师兄约我吃饭,认为AI创业最大的机会就在这里面,要在这一趋势到来之前准备就绪。走宏观路线,还是得老姜来。

像我这样对技术没有那幺了解的,在一年前就很难想象这些可能性。每一次技术创新,其实都会带来很多新的可能性。回看过去这一年,最初人们吐槽ChatGPT的很多问题已经被解决。回归用户洞察,会发现有很多之前难以解决的问题,今天可以用全新的方式来满足。今天对于一个“古典”产品经理来说,其实是黄金时 代。

对我们来说,始终不变的定量就是我们所服务的用户—一群对内容品质有要求的人。这是唯一需要直觉的,也是我们多年积累所在。