龙8long8，彻底反转：号称碾压LLaMA的Falcon实测得分仅4908Hu

新闻动态

行业新闻 2024-07-19

　　自 2 月份发布以来，开源社区一直在 LLaMA 的基础上进行二创，先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型，生物学羊驼属的英文单词都快被用光了。

　　不过，也有人对 LLaMA 发起了挑战。5 月底，阿联酋阿布扎比的技术创新研究所（TII）开源了一个 400 亿参数的因果模型「Falcon-40B」，该模型在 RefinedWeb 的 1 万亿个 token 上进行了训练，并使用精选数据集增强。刚一发布，「Falcon-40B」就冲上了 Huggingface 的 OpenLLM 排行榜首位龙8long8，「碾压」了参数规模 1.5 倍的「LLaMA-65B」，也优于 MPT、RedPajama 和 StableLM 等开源大模型。

　　LLaMA 论文中的 MMLU 数据。MMLU 是 Massive Multitask Language Understanding 的缩写，是一个基准数据集，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获取的知识。它由一系列学术科目中类似考试的问题组成，用于测试模型对于世界理解的能力。

　　初步来看，「你大爷还是你大爷」。不过，这还不是 LLaMA 65B 的线日凌晨公布的第二波结果中，符尧解释说，他们在第一波测评中发现了一个「long prompt」引起的 bug，这个 bug 导致 LLaMA 在高中欧洲历史和高中美国历史上得到 0 分。龙8long8唯一官方网站在修复了这个 bug 后，LLaMA 得分变成了 63.64，与论文中报道的数字基本相同。

　　不过，符尧专门指出，他们不打算在 LLaMA 和 Falcon 之间挑起战争：「两者都是伟大的开源模型，并为该领域做出了重大贡献！Falcon 还具有更简单的许可证优势，这也赋予了它强大的潜力！」

　　原标题：《彻底反转：号称「碾压」LLaMA的Falcon实测得分仅49.08，HuggingFace决定重写排行榜代码》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。