Thomas Wolf: Mistral + OpenBMB + HuggingFace 跨越三大洲的大模型开源合作故事

作者:openbmb
2024-01-03 16:43:12

2023年11月,NLP 大牛、HuggingFace 联合创始人 Thomas Wolf 发了一条推特,内容很长,讲了一个 “全球三大洲的人们公开合作,共同打造出一个新颖、高效且前沿的小型 AI 模型” 的故事。

故事是这样开始的,在几个月前,巴黎的一个新团队发布了他们首个模型:Mistral 7B,这个模型体积小巧但性能强劲,在基准测试中的表现超过了所有同类模型。

这还是个开源项目,意味着大家都可以在此基础上进行开发。

另一个研究模型微调和对齐的 H4 团队的两名成员,在 Hugging Face 举办的一次小聚中,他们边喝咖啡边讨论用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性,最后他们决定用已经构建好的代码库先来尝试下。

之后,他们在 HF hub 上找到了一些公开的数据集,包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集:UltraFeedback 和 UltraChat

UltraFeedback,一个大规模、多样化、细粒度 的偏好数据集,包括 25万 条对话数据以及相应的偏好标注数据。在非社区标注的偏好数据集中,这一数据规模排在首位。并且,其中每条偏好标注均包含四个方面的细粒度得分与的详细文字说明。

UltraChat 则是高质量的对话数据集,包含了 150 余万条多轮指令数据。调用多个 ChatGPT API 相互对话,从而生成多轮对话数据。

经过几轮实验证明,使用 OpenBMB 两个数据集训练出来的新模型非常强大,是 H4 团队 在伯克利和斯坦福的基准测试中见过的最强模型。

不久,这个名为 “Zephyr” 的模型、研究论文以及所有细节都向世界公开了,此后全球各地的公司开始应用这一模型。LlamaIndex,一个知名的数据框架和社区,分享了这个模型在实际用例基准测试中超乎预期的表现,与此同时,研究者和实践者们在 Hugging Face hub 上热烈讨论着这篇论文和相关工作。

Zephyr-7B性能 超越参数十倍之大的 LLaMA2-70B-Chat

短短几周就创造了这个 开源神话。Thomas Wolf 指出,这一切都得益于世界各地(欧洲、加利福尼亚、中国)对知识、模型、研究和数据集的开放获取,以及人们在AI上相互建设、相互借鉴,共同创造出真正有价值的高效开放模型的理念。

开源精神以自由和合作为信条,让人类再次联合起来重建通天巴别塔。开源旨在打破人为壁垒,通过开放透明的方式促进技术和知识的创新共享。对于个体或组织而言,拥抱开源则是一种强者心态

值得一提的是,OpenBMB 开源社区背后的国内领先的人工智能公司 面壁智能,一直联合清华大学 NLP 实验室为大模型事业做高质量的开源贡献的同时,一直深耕大模型底层的数据工作。

就拿此次被 Zephyr-7B 运用的 UltraFeedback 为例,UltraFeedback 从多个社区开源的指令数据集中收集了约 6 万条指令。基于这些指令,UltraFeedback 从 17 种不同架构、参数量、训练数据的模型中随机选取 4 种不同模型,为每条指令生成 4 种有区分度的回复,极大地提升了指令和模型的多样性。

基于 UltraFeedback,团队还训练了UltraRM、UltraCM两个模型来进一步辅助模型评测和模型反馈学习。

在大家都在卷模型参数时,一个基于高质量数据集的 7B 模型就打败了参数十倍之大的 LLaMA2-70B-Chat。这说明了什么?

说明,底层的数据工作 才是最稀缺的和有时间价值的,这或许是各家各派大模型在 百模大战中的突破口之一