老胡茶室
老胡茶室

团队 Vibe Coding 月报 - 2026年5月

胡键

闲话少说,书接上回。

从 0 到 1 的视频生产流水线

继上月开始使用 ai 协助视频剪辑之后,本月则开始了从 0 开始生成视频的尝试。看到这里,一些懂行的小伙伴可能会脱口而出: remotion 。很遗憾,哥的反骨和品味有别常人,这里用的是 HyperFrames 。

为何选择 HyperFrames,主要三点:

  1. 持续看到网上有人在叫好。
  2. 直接跟 Codex 和 CC 配合的 agent skill,且直接支持 TTS。
  3. 开源许可证。

HyperFrames 自己也写了一篇对比,可自行前往观看

整个尝试最后积累了一个相对完整的项目模板,主要功能:

  1. 集成了 HyperFrames 相关 skills 和命令。
  2. 增强其缺省的 TTS 功能,同时支持中日英。在这个过程中填补了一些之前不知道的坑,典型如:
    • 中英混杂文本
    • 日文技术词汇
  3. 集成 CloudFlare Media Stream,可将生成视频直接上传。

此外,还开发了一系列相关的 slash commands 辅助整个工程流程。

别问我开源不开源,现在没空思考这个,但是未来写一篇相关文章是有这个打算的,会记录相关的坑和解决。辅以 CC 和 Codex,复现并非难事。

继续 Apple 生态 local first 的 ai 应用开发

在等待 apple store 企业开发者账户所需的邓白氏码期间,哥无意间看到几个有意思的东西:

  • 最近似乎在流行 menubar app,包括龙虾大佬也 show 了一下他最近写的 RepoBar。
  • clicklight,依旧是一个 menubar app。
    • 看到它的时候,我已经在想是不是也 vibe 一个 menubar app。
  • cue,随时在你敲字的地方激活的写作增强小应用。
    • 跟我去年尝试过的浏览器插件想法类似,区别是我当时的那个只是作用于网友的 input。

于是乎,我构思了一个场景,正在着手尝试。有意思的是,在测试过程中居然触发了 prompt injection,正在 fix 中。

MonaKit 和 MonaKiosk 全面支持 astro 6 + zod 4

若非有位网友提了一个是否支持 Astro 6 的 github issue,这次升级可能还不会这么快。

整个升级过程并无太多障碍,除了:zod 4 引入了 breaking change,导致我也对应修改了 zod 3 为底的 content schema。

跟 vibe coding 有关的实践是:小伙伴尝试了用 codex 来 review 之前的老旧仓库,并以此为基础,将原来一些人为复杂化的代码进行了大幅翻新,缩减了近 1/3 的代码。

由于恰好发生在迁移过程中,于是让小伙伴也在 MonaKit 的仓库上如法炮制。

btw,Mistral 也在用 Astro 来做网站了,难道你不想也试试么?看看我们的尝试:

关于 Coding 本身的实践

compound-engineering 替换 superpowers

这是小伙伴自己的 CC 插件替换,对于此类插件,我一向不太感冒,于是问了问有何不同和感觉,回答:

大的倒没有,因为他们的方法论其实我们一直有在用。而使用这一类的工具可以减少一些手动指定目录和格式之类的操作

没太影响我以前的工作流,我以前就用对应的 slash command

anysearch

我没用过,但按小伙伴的说法是:

非常好用,这玩意远比自带的 web search 搜索出来的内容质量好得多

最近所见所闻带来的实践和想法

首先, 忘了在哪看到的一篇文章说一个 CC 的 memory 插件强力依赖 mermaid 图来建立起代码之间的关系,效果不错。

在我现在的工程中也有固定的套路和格式来做类似的事情,只是用的是纯文本,因为想当然认为更省事。但看到此文之后,觉得有启发,原因在于:mermaid 本来就已经有描述不同类型关系的图,这样可以描述的关系自然越多。加上本来就流行,ai 生成和理解本来已经不是障碍。这远非简单的文本 + 箭头可以比拟。

其次,对于 Claude Routine,我一直没想好要用它干啥,因为我手头并没有太多可以全自动去做的事情。而且,全自动生成内容再到处发并非我钟意的生财思路,于是乎一直处于闲置状态。直到最近看到的 claude 团队自己介绍的用法:documentation routine。

这简直是一语惊醒梦中人,直接建立一个 memory 或者是 repo understanding 的 routine 岂非就是最直接的场景。此时,无需再 review 代码,只是让它自己好好反省,正是一个当“甩手掌柜”的典型用法。

最后就是之前在网上看到过,但今天又在朋友圈中看到的同样内容,老马的新文:Interrogatory LLM,其主体思想就是,反向质询:

The obvious way to do this is for a human to write this context, but an alternative is to use an LLM to write this context after interviewing a human.

这一点让我想起多年前在给小伙伴补充技术内容时的情形。一开始是我讲他们听,结果一众人昏昏欲睡;于是,我也来了反向操作:他们讲,我来听,效果立马翻转,😄。

以上。

精品内容