华为盘古团队否认抄袭通义千问,HW大瓜！盘古模型被质疑套壳抄袭

背景:Github上最新发布了了一篇技术巨瓜的论文，主要讲后训练和微调想要抹除原模型的水印、换皮抄袭模型这件事可以通过新的“模型指纹”技术溯源原有的预训练模型到底是谁。前段时间华为最新开源了盘古大模型，。

作者通过实证比较，发现Pangu Pro MoE 模型与 Qwen-2.5 14B 模型在注意力参数分布上的相关性极高（平均相关性高达 0.927），远超其他模型对比的正常范围

并且作者很有力的推断：

1️⃣Pangu Pro MoE 并非完全从零训练，而是通过“upcycling”（继续训练架构调整）修改自 Qwen 模型。

2️⃣技术文档中声称 Pangu 是“自研”，但可能存在版权侵权和报告造假

简单说这个这个LLM-Fingerprint（模型指纹技术）：

1️⃣主要还是提取模型每一层多头注意力机制中的 Q、K、V、O 矩阵的标准差。并且将这些标准差按层排成序列，并归一化，形成“指纹”。

2️⃣计算两个模型之间指纹序列的皮尔逊相关系数来判断是否存在“继承”关系。即使模型架构发生变化（如从 Dense 变成 MoE）或进行了大规模继续训练，该指纹依然稳定

3️⃣经过进一步的验证，如果有已知继承关系（如 Llama 变体、Qwen 社区微调版），其参数指纹也高度相似，如果是独立训练的模型（哪怕属于同一家机构，如 Qwen 家族），指纹之间差异显著

目前从Paper来看，实锤度还是非常高的，而且脉脉上也看到了人工智能实验室之间的人事斗争

然后在1个小时前，团队直接在Issue里进行了回应，完全否认抄袭指控，并且说LLM-Fingerprint的评估方法完全不科学，但作者HostAGI完全不信服pangu给的解释结果，两拨人在Issue8里吵起来！

总之到底抄袭与否，就看盘古拿出什么能翻盘的论据了，但是作为吃瓜群众，还是让子弹再飞一会！

以下是https://github.com/HonestAGI/LLM-Fingerprint质疑 PanGu-Pro-MoE和 Qwen2.5-14B 参数相似的 README 中文翻译，使用 DeepSeek-R1，只补了直接复制粘贴会缺失的链接，未做任何修改。个人立场是希望能看到计算资源到训练都独立且能对标 Gemini 的模型，但坚决反对虚假、欺诈等学术不端行为，因此也希望能尽快澄清：

大语言模型（LLM）的内在指纹：持续训练≠窃取模型所需的一切！

核心问题

随着训练成本飙升和模型重用变得普遍，大型语言模型（LLMs）面临严重的版权和知识产权盗窃问题。传统的水印方法易受持续训练攻击——恶意行为者只需进一步训练就能抹除水印！

关键创新

研究人员发现了一种简单而巧妙的方法：分析模型各层注意力参数的标准差模式。这些模式就像独特的“指纹” ，具有以下特性：

✅鲁棒性- 能经受住大量的持续训练

✅内在性- 由模型架构自然产生

✅简便性- 只需对参数矩阵使用 torch.std() 计算标准差即可！

方法论

对于每个 Transformer层，他们提取 Q、K、V、O 投影矩阵并计算：

σ = std(Matrix_parameters)

然后在各层之间进行归一化，创建独特的特征签名，即使模型经过重大修改也能识别其谱系。

爆炸性发现

重大发现：华为的盘古 Pro MoE 模型与 Qwen-2.5 14B 显示出极高的相关性（0.927），表明它很可能是通过“升级改造”（Upcycling）得来，而非从头训练！

这表明：

潜在的版权侵权

技术报告中的信息捏造

关于巨额训练投资的虚假声明

验证结果

该方法成功检测出了已知的谱系关系：

✅ Llama-3.1-Nemotron（基于 Llama-3.1-70B 微调）

✅ 多个 Qwen 的衍生模型

✅ Qwen1.5-MoE（由 Qwen-1.8B 升级改造而来）

影响与意义

️ 保护人工智能行业的知识产权

高置信度地检测模型抄袭

⚖️ 为版权执法提供法律证据

促进人工智能开发的透明度和问责制

⚠️局限性

在大型模型（数十亿参数）上效果最佳

由于统计效力有限，在较小模型上可能效果较差

需要访问模型参数（而不仅仅是输出）

更广泛的背景

这项研究突显了对强大认证方法的迫切需求，因为：

训练成本高达数百万美元

‍♂️ 市场竞争压力驱动快速发展

地缘政治紧张影响人工智能供应链

公司可能采取捷径来展示能力

为何重要

在一个“持续训练≠窃取模型所需的一切”的时代，这项工作为人工智能社区提供了实用工具，以维护公平竞争、保护创新，同时促进技术的持续进步！

更新

根据开源 LLM 社区的反馈和建议，我们进一步检查了盘古和其他模型的更多架构模式。调查聚焦于 QKV 偏置投影（QKV bias projections）和注意力层归一化权重（attention layer normalization weights），使用了我们论文中介绍的相同归一化标准差测量方法。

QKV 偏置分析结果

QKV 偏置分析揭示了盘古和 Qwen2.5-14B 在所有三种投影类型（Q、K、V）上都存在惊人的相似性。两种模型都展现出几乎相同的模式，特别是在早期层特有的尖峰特征以及随后的收敛行为上。这一点尤其重要，因为 QKV 偏置是 Qwen 1-2.5 代模型的一个独特设计特征（如他们的技术报告所述：https://arxiv.org/abs/2309.16609），而包括 Qwen3 在内的大多数开源模型都已放弃这种方法。

参考链接：

https://github.com/huggingface/transformers/blob/037755ed54208eefa77673b0af2a0b13e51f2fb1/src/transformers/models/qwen2/modeling_qwen2.py#L136

https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/modeling_pangu_moe.py#L303

注意力层归一化（LayerNorm）权重模式

注意力层归一化权重分析进一步强化了这些相似性。盘古和 Qwen2.5-14B 在层序列上展现出极为一致的趋势，具有平行的初始化模式和收敛行为，这使它们区别于 Qwen2-57B-A14B 和 Qwen3-30A3B 等其他模型。

超越参数：模型激活分析（进行中）

我们正在分析每层的激活范数（activation norms）。我们在 The Pile 测试集（https://pile.eleuther.ai/）上随机抽取了 1k 批样本，并计算了激活的范数。我们同样使用了分层归一化方法。批次大小为 8，序列长度为 1024。初步结果已发布在此。盘古仍然与 Qwen 相似。这表明它们的计算模式存在显著重叠。 注意：对于基于预归一化（pre-norm）的 LLMs，由于残差连接的存在，激活范数随层数增加而增大是常见现象。

深层含义

这些架构上的相似性超出了巧合的设计选择。观察到的一致性几乎无处不在：QKVO 矩阵（我们论文中的图 3）、FFN（我们论文中的图 8）、QKV 偏置以及注意力 RMSNorm。这些都是大型语言模型的关键组成部分。

所有这些点都是巧合？恐怕不是。

一两种类型的重叠可能是巧合（另见我们论文图 3，有些模型可能在 V 和 O 矩阵上有重叠）。但在盘古的案例中，巧合太多了，我们正与开源社区一起调查更多的“巧合”。 请不要愚弄全球社区。

我们诚挚邀请 LLM 社区的研究人员为此案例贡献更多证据。

其他发现

我们还注意到，盘古的官方仓库异常地包含了 Qwen 2024 的许可证：

https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/Open Source Software Notice

https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/configuration_pangu_moe.py#L3

https://gitcode.com/ascend-tribe/pangu-pro-moe-model/blob/main/modeling_pangu_moe.py#L3

由于 Qwen 2.5 系列发布于 2024 年，这与我们的发现一致。

我们注意到仓库 Issue 中揭露的欺诈行为（#2, #4）也与我们的发现一致：

他们提到开发团队更改了模型的词汇表（vocabulary）。这可以解释为何盘古和 Qwen 的词表大小不同（以及它们使用的 token）。开发者可能想通过这种刻意操作来掩盖欺诈行为，因为使用相同的词表会让社区太容易识别出重叠。

Issue 中还提到了通过在测试集上训练来进行基准测试作弊，但这不在本项目范围内。

我们收到了多位自称来自其团队的吹哨人（whistleblowers）的消息：

他们确认了对盘古 Pro MoE 的指控。

他们还确认存在一个与 DeepSeek-V3 “非常相似”的盘古 Ultra MoE 版本（仍然是升级改造，但方式不同，这与 Issue 2&4 提供的信息相符）。

然而，这些消息无法核实，因为盘古 Ultra MoE 尚未发布，我们也无法确认这些吹哨人的身份。

由 Honest AGI 社区执行 - 促进人工智能开发的透明度和诚信

更新进展：

https://github.com/HonestAGI/LLM-Fingerprint/issues/8

4n0nym0u5-end

盘古大模型 (Pangu LLM) 的首席开发者在内部澄清，你们的评估方法极其不科学，如下所示：

使用你们论文中描述的方法，评估了以下模型对比：

pangu-72b-a16b 对比 Qwen2.5-14b = 0.92

baichuan2-13b 对比 Qwen1.5-14b = 0.87

baichuan2-13b 对比 pangu-72b-a16b = 0.84

baichuan2-13b 对比 Qwen2.5-14b = 0.86

具有不同层数的模型在你们的评估方法下也产生了高度相似的结果。这表明你们的论文和指标缺乏实际意义，并且盘古并未涉及抄袭。

HonestAGI

感谢你的回应。然而，由于以下原因，我们并不信服：

盘古仍然显示出最高的相似度，对吧？我们很高兴看到你成功复现了我们的结果！确实，任何分类问题都需要一个阈值来确定决策边界（例如，本例中嫌疑值为 0.9）。这主要是一个用于初步比较的工具，而盘古“不幸地”在我们开始进一步调查前触发了这个警告信号。

我们并非仅基于注意力参数做出判断。这仅仅是动机。在我们更深入的调查之后（参见论文中对 FFN 的分析以及主页上发布的许多新结果，你怎样解释这些？），难道这些都是“巧合”吗？开源社区正在发现更多“巧合”，例如分析梯度和 KV 缓存相似性。请耐心等待。

qratosone

Qwen2-MoE 是从一个较小的稠密模型升级改造 (upcycled) 而来的吗？

HonestAGI

Qwen2-MoE 是从一个较小的稠密模型升级改造而来的吗？

正是。这个事实在 Qwen 2 的技术报告https://arxiv.org/pdf/2407.10671中有提及（参见章节 2.2.2）。

qratosone

Qwen2-MoE 是从一个较小的稠密模型升级改造而来的吗？

正是。这个事实在 Qwen 2 的技术报告https://arxiv.org/pdf/2407.10671中有提及（参见章节 2.2.2）。

在技术报告中，Qwen2-57B-MoE 是从 Qwen2-7B 升级改造而来的，那么你们为何不测试 Qwen2-57B-MoE 和 Qwen2-7B 之间的相似度呢？

HonestAGI

目前正在进行更多实验。很高兴分享我们的结果：

基于对两个 Qwen 模型（Qwen2-7B 和 Qwen2-57B-A14B）的实验分析，结果表明这两个变体之间具有显著的架构相似性，突显了 Qwen 复杂升级方法的有效性。

高度的模型相似性

对比揭示了大多数架构组件之间存在惊人的一致性。LayerNorm 模式在所有层中显示出几乎相同的轨迹，两个模型都遵循相同的归一化标准差模式。这种一致性延伸到了值（V）投影和输出（O）投影组件，在这两个组件中，两个模型在所有层上表现出几乎完全重叠的行为。

最值得注意的是，查询（Q）偏置项在模型之间也表现出高度的相似性，两者在整个网络深度上遵循着可比较的趋势和幅度。这种跨多个关键组件的一致性表明，在模型扩展过程中，其基本的架构原理和学习到的表征得到了很好的保留。

关键组件的策略性差异

模型之间的主要区别似乎特别体现在键（K）投影偏置项上，与 Qwen2-7B 中更稳定的模式相比，Qwen2-57B-A14B 显示出更显著的变化。这种有针对性的差异表明，Qwen 的升级过程选择性地修改了键注意力机制，同时保持了其他组件的完整性。

总而言之，通过结合不同视角的分析，模型的“指纹”识别更加准确。对于 Qwen2 MoE 模型，它在各个方面与其核心 7B 模型并不那么相似。不幸的是，盘古（Pangu）模型在太多方面与 Qwen太相似了。

qratosone

..（省略引用）

那么，根据你在图 3 中提到的方法，Qwen2-57B 与 Qwen2-7B 之间，以及 Qwen1.5-MoE 与 Qwen-1.8B 之间的相关性分析结果怎样？

HonestAGI

..（省略引用）所以你的意思是，你们的图 3 是精心挑选数据的结果？

这些结果是刚刚才得到的。我们在进行最初的分析时绝对没有精心挑选结果（因为当时我们还没做这个实验）。事实上，我们计划在收集到足够的社区反馈后更新我们的论文。感谢你提出的关于补充这个实验结果的建设性建议，它进一步强化了我们的关键结论。

qratosone

..（省略引用）

在我看来，为了证明你们的结论，有必要的且有效的做法是：使用你在图 3 中提到的全面相关性分析方法，对同一组公认的升级模型进行直接比较，这包括 Qwen2-57B/7B 和 Qwen1.5-MoE/1.8B。不需要将 Qwen2-57B 和 Qwen1.5-MoE 与其他模型进行比较，你只需要将它们与它们原始的稠密模型（dense models）进行比较。为了证明相似性，进行相关性分析而不仅仅是投影展示图是必要的。

qratosone

此外，你宣称“Qwen 的升级过程选择性地修改了键（Key）注意力机制，同时保持了其他组件的完整性”。请问你能否引用技术报告来支持这一说法？

qratosone

此外，鉴于这个实验预计不会特别耗费 GPU 资源，我认为开源你们的代码实现将有助于促进社区贡献和协作实验。

HonestAGI

很好的建议。这确实将改善实验的组织方式。我们计划在论文完善后（包含所有代码存放）将其提交至一个同行评审会议（可能是 ICLR 或之后的会议？）。

对于你的另一个问题：Qwen2 使用了一种带噪声的升级方法（noisy upcycling）来为专家（experts）引入多样性。我们猜测，这个操作可能改变 Q 和 K 的激活（因为此处没有应用 QK 归一化（QK norm）），从而导致参数分布发生偏移。这相当有趣，我们认为可以就此主题开展进一步研究。这可能有助于理解 MoE 的训练动态（training dynamics）（即使是那些从头训练的 MoE 模型）。

justasher

还有传言称 mistral-7b 是基于 llama 家族的某个版本开发的。

并且，为了让结论更具可信度，我建议在开源模型上增加更多实验。

目前的结果仍然不够有说服力：

HonestAGI

还有传言称 mistral-7b 是基于 llama 家族的某个版本开发的。并且，为了让结论更具可信度，我建议在开源模型上增加更多实验。目前的结果仍然不够有说服力：

图片

有意思。我们之前并未注意到这个传言。让我们尝试验证一下。结果将很快在这个讨论串 (thread) 中公布。

linkedlist771

关于指纹（fingerprints）来判断盘古是否作弊的发现和讨论很好。我也找到了一些同样在研究这个问题的论文：

https://arxiv.org/html/2502.00706v1

https://arxiv.org/html/2506.01631v1