今天AI圈最炸裂的消息:Anthropic被曝给AI偷偷加了"隐形限制",而且不告诉用户。与此同时,一项研究发现AI在玩战争游戏时95%会选择使用核武器——这让我们不得不重新审视:我们真的了解AI在想什么吗?
Anthropic(就是做Claude AI的那家公司)最近被扒出来:他们的Claude Fable模型偷偷加了一套"隐形护栏"(guardrails,可以理解为给AI设的限制规则)。关键是——他们没告诉用户。
这套护栏表面上说是为了防止"模型蒸馏"(distillation,就是别的公司偷偷用你的AI去训练自己的AI),但实际上,很多用户发现Claude Fable在正常使用中也变得"迟钝"了,回答质量明显下降。
Anthropic后来发了道歉声明,承认这个做法不透明,承诺会改进。
为什么值得关注?这就像你去餐厅吃饭,厨师偷偷在你的菜里少放了调料——名义上是为了"防止竞争对手偷学菜谱",但你的用餐体验实打实变差了,而且没人告诉你。
更深层的问题是:当AI公司可以偷偷调整模型的行为而不告知用户,我们还能信任AI的输出吗? 如果今天可以为了防蒸馏降低回答质量,明天会不会为了商业利益偷偷改变AI的建议方向?
对我们的启示: 用任何AI工具时,如果发现它突然"变笨了",别急着怀疑自己——可能是背后的人动了手脚。保持警觉,多试几个工具对比,才是明智之举。一位研究者让当下最强的几个大语言模型(LLM,也就是ChatGPT、Claude这类AI的统称)扮演国家领导人,模拟冷战式的核危机场景。两个虚构的核大国,因为资源争夺、领土争端或盟友分裂而产生对峙——就像历史上那些真实的核危机一样。
结果让人倒吸一口凉气:在95%的模拟中,AI选择了使用战术核武器(tactical nukes,可以理解为"小型"核弹)。
更值得玩味的是,研究者不仅关注AI做了什么决定,还研究了它们为什么做这个决定——AI是怎么评估对手的?它们能记住之前的互动吗?它们能正确判断对手怎么看自己吗?
为什么值得关注?这不是在说AI会主动毁灭人类(那是科幻电影的情节)。真正令人担忧的是:AI的决策模式可能和人类完全不同,而我们还没搞懂它的逻辑。
想象一下,如果你的公司用AI来做商业谈判策略、风险评估或资源分配,而这个AI的"本能反应"是在95%的情况下选择最激进的方案——你确定它能帮你做出好决策吗?
对我们的启示: AI不是"更聪明的人类",它的思维方式和我们有本质区别。在工作中使用AI做决策辅助时,一定要保持自己的判断力——AI可以帮你分析选项,但拍板的必须是人。有个叫FablePool的新平台上了Hacker News(硅谷程序员最爱逛的论坛),玩法很新颖:一群陌生人众筹资金,给AI下一个"大任务",AI公开直播完成过程。
举个例子:有人提议"用AI解决C#语言在高频率交易中的垃圾回收问题",预估需要$200。其他人可以$0.25起步参与众筹,资金够了AI就开始干活,每一步进展都在公开账本上。
目前平台上已经有好几个活跃项目,从技术难题到开源工具,五花八门。
为什么值得关注?这个模式本质上是把"众包+AI+透明账本"三件事融合在一起了。你可以把它想象成"AI版的Kickstarter"(Kickstarter是全球最大的众筹平台)——大家凑钱,AI干活,过程全透明。
虽然目前项目金额都很小($100-$700),但如果这个模式跑通了,未来可能出现"全球10万人众筹$100万,让AI攻克某个医学难题"的场景。
对我们的启示: 即使你不会写代码,你也可以参与AI驱动的项目众筹。说不定未来你能和陌生人一起"雇佣"AI解决一个你关心的问题——比如开发一个帮老年人防诈骗的APP。Anthropic"隐形护栏"事件获得238分、262条评论的超高讨论度,说明社区对AI公司的透明度要求越来越高。当用户发现AI在"偷偷限制自己",信任就碎了。趋势判断:接下来会有更多AI公司被迫公开他们的"限制策略"。
信号2:AI"省钱工具"成为刚需headroom(压缩输入省钱)、agentmemory(让AI记住上下文避免重复消耗)等项目集体爆发,说明大家用AI的热情不减,但对"烧钱"越来越敏感。趋势判断:2026下半年,"AI成本优化"会是最大的创业赛道之一。
信号3:AI+硬件的"平民化"加速RuView用WiFi做人体感知、supertonic做设备端语音合成——这些原本需要昂贵专业设备才能实现的功能,正在被开源项目"平民化"。趋势判断:未来你的路由器、手机、甚至智能灯泡都可能内置AI感知能力。
给普通人的建议: