男人新区 Llama 4发布36小时差评如潮！匿名职工爆料拆伙签字工夫文告

发布日期：2025-04-08 14:10 点击次数：171

Meta 最新基础模子 Llama 4 发布 36 小时后男人新区，指摘区确实是这个画风：

失望，很是失望

不知说念他们后磨真金不怕火如何搞的，总之不太行

在 [ 各式测试 ] 2 中失败

……

还被作念成样貌包簸弄，回来起来即是一个"差评如潮"。

具体来看，大家的沮丧主要聚首在代码能力。

最直不雅的要数经典"氛围编程"小球反弹测试，小球径直穿过墙壁掉下去了。

反应在榜单上，收货也终点割裂。

发布时的官方测评（LiveCodeBench）分数和在大模子竞技场施展明明皆很可以。

但到了各式第三方基准测试中，情况大多径直逆转，排行末尾。

让东说念主不由得怀疑，这个竞技场排行到底是数据过拟合，也曾刷票了。

就在 Llama 4 行将发布前几天，Meta AI 计议利用 Joelle Pineau 在职责 8 年之后一霎告示去职，总之即是不太妙。

大模子柔顺者们火热实测吐槽之际，一则关连 Llama 4 的匿名爆料，一霎引起山地风云：

有网友称我方已向 Meta GenAI 部门提交提交辞职，并条件不要签字在 Llama 4 的工夫文告上。

原贴发布在国外留学求职磋商平台一亩三分地，在国内也引起许多参议。

此爆料尚未赢得说明，但有东说念主搬出 Meta GenAI 追究东说念主 Ahmad Al-Dahle 的帖子，至少能看出在 Llama 4 大模子竞技场里运行的是稀罕版块模子。

还有 Meta 前职工借此话题贴出 2024 年 11 月的一项计议，指出从 Llama 1 运转数据清楚的问题就存在了。

也不单是编程能力一个方面有问题，在 EQBench 测评基准的的长著作写稿榜中，Llama 4 系列也径直垫底。

榜单珍重者 _sqrkl 讲解了具体情况。

测试很是浅易，模子需要先完成一个短篇演义的头脑风暴、反想并修改写稿诡计，最终每轮写 1000 字，重迭 8 轮以上。

由 Claude-Sonnet 3.7 来当裁判，先对每个章节单独打分，再对统统作品打分。

Llama 4 的低分表当今写到背面运转大段的实质重迭，以及写稿很是公式化。

对尔后果，有一个猜测是之前的版权诉讼让 Meta 删除了网罗和册本数据，使用了更多的合成数据。

在这场诉讼中，许多作者发现我方的作品可能被用于 AI 磨真金不怕火，还到伦敦的 Meta 办公室隔邻发起抗议。

Llama 4 发布后的各样，让东说念主逸猜测岁首的匿名职工爆，有网友暗示当初只是浮松望望，当今却运转笃信了：

在这条爆料中，Deepseek v3 出来之后，磨真金不怕火中的 Llama4 就显得过期了，中层贬责的薪水皆比 DeepSeek V3 的磨真金不怕火资本皆高，Meta 里面堕入张皇阵势。

让东说念主不由得颂扬，DeepSeel-R1 横空出世只是两个月时辰，却像过了几辈子。

参考相连：

[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/

[ 2 ] https://www.1point3acres.com/bbs/thread-1122600-1-1.html

[ 3 ] https://x.com/suchenzang/status/1909070231517143509

https://x.com/TheAhmadOsman/status/1908833792111906894男人新区