上次写 大语言模型一年小记 已经是3个多月前了,大概正是那个时间点前后,OpenClaw 火了,观望了一阵儿后还是没忍住入了坑,上手一个多月,记录下。

1、从对话到上手
4月初,拿闲置的树莓派5给 Claw 做了个窝,隔离环境风险可控。格式化、装无头系统,然后开始上 Claw。
按照去年一年养成的新习惯,我右边开AI会话问流程,左边终端窗口操作,遇到问题把报错从左边粘到右边,然后再把右边反馈的解决方案粘到左边执行,如此反复。
安装和配置整体比较顺利,只有两个比较大的坑:一是网络问题,各种设镜像源;二是模型,开始想省钱,用免费模型或者本地小模型,但测试结果基本不可用,被逼无奈还是用了收费的云端大模型。
第一个 Agent 跑起来以后,画风就变了:AI问答被最小化,只剩个全屏的 WebUI 会话窗口,配 channel、装 skill 之类,直接给 Agent 下任务,然后看它读文件、下载、编译,忙得不亦乐乎。和 AI问答 相比,Claw 最大的变化,就是能够自己在虚拟空间里直接上手操作。
2、惊吓:机器里的小黑客
关于 Claw 的动手能力,一开始着实惊到我了。
给 Claw 的第一个任务,是打通与同内网的一台 树莓派4b 上的 gitea 的连接,它上来就装 nginx,准备跑反向代理,虽然最后因为权限限制没搞定,但折腾过程试了多种路径,在权限范围内各种读、写文件,看日志真有点后背发凉的感觉。
还有一次,让 Claw 去查下 树莓派5 本地的 Uptime-kuma 的监控信息,key 给它写在配置文件里了,可它没去查,反而直接翻进 kuma 的 docker 里,利用 docker 里操作数据库可以无密码登录的特性,自己直接写了两个 key 进去,一个能用,一个不能用,它就用那个自建且能用的 key,把数据拿了回来 —— 有点攻防演练的意思。
很多次,调配置、装 skill 后,Claw 重启 gateway 失败,把自己的窝给搞掉线了。这种时候只能我远程 ssh 进来,status 或 logs 看报错,找 AI问答 咨询,然后手动修复错误的设置,再手动重启 gateway,让它们重新上线。
除了“惊吓”的例子,也有不少“惊叹”的例子,自己拉包、编译,解决各种各样的坑,略过不说。Claw 动手能力确实蛮惊人的,权限设定是给它定规矩的最主要的手段,但限制多了,它也就干不了啥了,如何平衡限制与效率,我还在摸索。
3、快进:去情绪化的狂奔
从对话到上手,从结果看,最直观的感受是效率的提升。对软件安装与配置、系统demo搭建等这种事儿,Claw 就像一个快进键,直接把你带到阶段成果那里。
曾经想做个类似 Grasshopper 那种流界面,调用各种 python 模型脚本的系统。叫上了擅长 Vue 的前端,擅长 Java 的后端,以及擅长 python 的算法等几个伙伴,捣鼓了几个月的时间,界面出了,后端任务队列也跑起来了,但怎么也串不起来,大家的热情慢慢散去,最后不了了之。
Claw 上线后我把这个想法甩给了它,让它先出技术选型和计划,告诉我说大概要几个阶段,每阶段几天到一周不等,总计不到一个月。真干起来才发现,它的计划可能是按照人类的效率估算的,每阶段加上修bug和优化,它都是半小时到个把小时搞定。堵点居然是业余捣鼓的我,每天最多只投入个把小时,即使这样,三五天 demo 也就稳定地跑起来了。
并不是因为碳基小伙伴不如 硅基AI,是 Claw 走了捷径,它选了 python 生态的 streamlit 包,跳出了 vue + springboot 的真前后端传统路径。Claw 的这次快进,依靠的是 LLM 更广的知识面,因而在根据任务需要选择最短路径方面,通常有更多的选择,且靠着精通各种技术栈的优势,跳过学习曲线,快速实施。
Claw 还有一个隐藏的硅基优势 —— 没有情绪。
没有 Claw 的时候,有次在 树莓派 上捣鼓 flaresolverr,按着 AI 问答给出的流程一步步的操作,因为之前的系统底层包版本不一,安装过程一路磕磕绊绊,最终竟然导致系统崩溃,无法正常启动。AI 问答淡淡的来了句,取出TF卡重做系统吧。—— 作为一个人类,听到这话,愤怒是自然而然的情绪反应:你让老子折腾了半宿,然后告诉我要重做系统,从头再来?我以前装的其他应用怎么办?你玩儿我呢?于是扔下了好几天,慢慢调整好情绪,才重新捡起来,重装系统、收拾残局。
有 Claw 之后,其实背后的大语言模型还没有什么显著进步,最开始给出的解决方案,很有可能最终被验证是行不通的。但没有情绪的隐藏优势,让 Claw 轻松摆脱“前面的活儿白干了”这种负面情绪,总能立即投入新的行动。拿 树莓派5 上语音识别做例子,开始它上了 python 的 faster-whisper,搞定后测试,却发现 4秒 的语音用了一分多钟才识别出来,基本不可用。然后自己说,这效率不行呀,要不换 C++ 实现的 whisper.cpp 试试?我说个好啊,Claw 就立刻开始投入新的任务了。
知识面广,让 Claw 面对问题可以有更多手段;无情绪,让 Claw 可以没有负担的疯狂试错。在我看来,这大概既是祝福、也是诅咒:祝福是说 Claw 可以大幅提升效率,让想法“快进”到demo,“快进”到实现;诅咒是说,也有另一种可能,会“快进”到系统崩溃,“快进”到 “尝试-失败-再试” 的死循环状态。
Claw 对于那些可能会带来损失的负面结果,不会关联任何负面情绪,与对那些出色完成的任务也不会关联任何正面情绪一样,没有情绪的 Claw 仅仅是为了完成任务而完成任务 —— 有点串台,但让我莫名想起阿甘长达三年的奔跑,智商只有75的阿甘也仅仅是为了奔跑而奔跑。
4、更多的场景与局限
试用中慢慢发现,Claw 在编程这件事情上,消耗比 Claude 大不少。没拿相同任务进行过严格测试,但类似任务、类似时长粗略比较下来,Claw 的消耗量大概是 Claude 的三倍以上,且 90%以上是缓存命中的输入,也就是说大部分消耗都是重复上传的上下文。于是,开发类的事情主要转给了 Claude,开始探索在其他非技术性的场景中引入 Claw。试了几个方向,总体感觉都还不错:
- 个人事务助理、GTD等应用场景:Claw 可以帮忙将年度目标细分为月度目标和待办事项并进行跟踪;帮忙做日报、周报、月报;打通一些笔记软件(如 obsidian)和待办应用(如滴答清单国际版 ticktick)后,可以读写相关笔记和待办事项,帮忙组织、整理和进行分析;
- 编辑、写手、翻译等文字应用场景:Claw 可以帮忙起提纲、写初稿、给建议、改错字;在 blog 场景中也可以帮忙做运维、SEO;如果正在学习外语,还能帮忙出测试、判卷,并给出错误解读;
- 图像、视频相关的应用场景:接本地的 Stable Diffusion API,试了文生图(txt2img),设置好以后几秒出图,能帮忙出概念图、参考图、草图、配图;短视频还没试,理论上可以,但对机器性能要求更高。
应用场景的选择主要综合考虑成本和收益。Claw 的优势是能上手,自架 gateway 的模式,成本主要是云端大模型的 token 费用。那些能接上相应的服务,返回的不是文字,而是一个可运行的程序、ticktick里的待办事项等外部成果时,Claw 发挥的效能更大,性价比更高,更值得让它接管;而那些仅仅是调用接口、返回会话的事情,比如挑错字、语言练习,暂时还是用不花钱的 免费AI问答 更划算。
目前,Claw 的动手能力和效能提升还有比较明显的局限:越是和线上、虚拟世界联系紧密,应用开放度高的领域,助力和提升效果越明显;越是与线下、物理世界联系紧密,安全隐私保障要求高的领域,受限越多。它已经能写代码、管理待办事项,但至少现在,晚饭还是得我自己做。
5、token 视角看沟通
有了多个应用场景,自然而然的就想试下 Claw 的 多Agent模式,于是又添加了几个 Agent 并做了分工,小管家做统筹,小作家管文字,小画家管图像,小黑客管技术。建群聊,打通 agent2agent的通信管道,设置稍有些复杂,不过有小黑客在,很快就搞定了。
在 WebUI 里看几个 Agent 沟通记录,有种看到办公室日常的既视感:我跟小管家说有几件事情要办,让它统筹;小管家找对应的 Agent 分派任务;拿到任务的 Agent 都能第一时间反馈,基本都要进一步确认任务细节和获取更多的相关资料;然后,小管家都会热情洋溢的把需要确认的事情和资料清单换个说法复述一遍,跟各个 Agent 会分别确认,根据 Agent 各不相同的性格设定,这个流程可能会反复两到三遍不等;最后,小管家会把汇总的对接信息发给我,给我一个每个 Agent 索要的资料清单。
看起来很美好,但在现在试用和测试的阶段,我对 token 消耗还是比较敏感的。从 token 角度看,开启 Agent 之间的交流,算力消耗必然大幅增加。道理很简单:人类直接交代任务给 Agent,只需要消耗一份儿算力,而 agent2agent 则是双份儿的消耗;另外,两个 Agent 有可能聊很久,甚至没完没了,虽然 Claw 框架能通过 agent2agent 会话回合次数进行限制,但相比 human2agent 模式,算力消耗仍会不可避免地增加。这么说来,为了省算力少花钱,最好限制 agent2agent 的沟通。
但,如果跳出token视角,其实总消耗并没有减少,因为 human2agent 模式,省掉的算力要人类自己来承担,耗费的是我的精力、体力和“算力“。我已经适应了水、电、煤气、电话账单,但对新鲜出炉的”算力“账单,眼下还有些斤斤计较,反而对”派个活儿“这种不起眼的”生命消耗“还没那么在意。
结语:有情绪的喜与忧
基本就这些了。一个多月的业余捣鼓,感觉还蛮充实、蛮有趣的。
眼下科技的演进速度完全不等人,上篇 大语言模型一年小记 的时候,还在纠结是不是该向 AI问答 吐露心声,如今 Agent 已经可以直接去读你的日记了。
是喜是忧?何去何从?Claw 不在乎,Agent们仅仅是在去情绪化的狂奔,帮主人们完成一个又一个的小梦想而已。
而对于作为人类的我、我们来说,面对 Claw,大概不同的人会有不同的情绪反应,或兴奋、或惊叹、或恐惧、或茫然。接下来怎么办?是去拥抱?去协作?还是去封禁?这真是个问题。——又或者还没有答案,就被狂奔的Agent们淹没和吞噬。

发表回复