开源的透明度陷阱：当开放只剩下可运行的代码

开源的透明度陷阱：当"开放"只剩下可运行的代码

Meta 又一轮"开源"模型发布。权重免费，架构文档，训练方法有细节描述。按行业标准，这叫"开源 AI"。

但这定义是骗人的。传统开源软件的意义，是你能读代码、理解决策、修改行为、重新部署。四步链条，缺一不可。而在今天的"开源"模型里，链条在第二步就断了：你看到的是结果，不是原因。

模型权重不是代码。它是训练过程的快照。一张照片告诉你人长什么样，但不会告诉你他为什么长成这样，也不会告诉你他经历了什么。

传统开源项目的 commit log 是一个决策历史。每次改动都附带着理由：bug 修复、性能优化、需求变更。你可以追溯每一条设计决策的来龙去脉。但在"开源"模型里，你只看到最终的权重矩阵。训练数据的筛选标准、损失函数的调优过程、评估指标的取舍——这些真正的决策，全部丢失了。

这不是透明。这是结果透明，不是过程透明。

学术界有句老话：可复现性是科学研究的底线。但今天的"开源"模型连这条底线都守不住。

你可以下载 Meta 的 Llama 权重，按照论文里的超参数训练。但你复现不出来。因为训练不是代码的一次运行，它是一个过程。数据清洗的细节、硬件的随机性、训练师的经验判断——这些都不在"开源"范围内。你得到的不是可复现的实验，而是黑盒的复制品。

更糟的是，这种"伪开源"会制造虚假的安全感。研究者以为可以验证模型的行为，但他们验证的是什么呢？是输入输出关系，不是模型的内部逻辑。你看到一个输出，不知道它是训练数据导致的、架构导致的、还是随机初始化导致的。

开源软件运动的核心是共享决策过程。Linux 不是 Linus 一个人写完的，它是成千上万的开发者通过 patch、讨论、review 共同塑造的。每个改动都有公开记录，每个决策都有可追溯的来龙去脉。

但今天的"开源 AI"把开源降级成了"可下载"。你得到的是二进制，不是源代码。你可以运行它，但你不能理解它。这不是开源，这是闭源+免费。

Meta 为什么这么做？因为真开源意味着暴露训练数据的版权问题、暴露优化过程中的商业考量、暴露模型能力的天花板。他们给你的是可控的透明：透明到你能用，但不透明到你能质疑。

这种伪开源对研究社区是有害的。它鼓励了结果导向的研究：大家不再关心"为什么"，只关心"能用吗"。模型变成了消费品，不是研究对象。

更严重的是，它扭曲了激励机制。实验室可以发布一个"开源"模型，刷一波论文和引用，但真正的技术细节全部藏在黑盒里。其他人想改进？可以，但只能在外围打转：改改提示词、调调超参数、做做微调。核心能力？那是不开放的。

这不是科学进步，这是科学封装。

真正的开源 AI 应该包括：

这些都不是"可选的"。它们是理解模型行为的必要条件。没有它们，你得到的不是开源模型，是一个可运行的神秘盒子。

开源软件的成功，不是因为它让你免费使用软件，而是因为它让你理解软件。你可以读代码、学设计、改 bug、发 patch。这个过程才是创新的源泉。

今天的"开源 AI"剥夺了这个过程。它给你一个成品，让你在成品上打补丁。这不是开源，这是消费者主义。

如果你是一个研究者，不要被"开源"的标签迷惑。问问自己：我能不能复现这个模型？我能不能理解它的设计决策？我能不能改进它的核心能力？如果答案是否定的，那它不是开源，它只是免费赠送。

开源的意义，不在于你能得到什么，而在于你能学到什么。当学习被阻断，开源就死了。

—— https://www.80aj.com