Aquarius中文网

智源千万级指令微调数据集 Infinity

发布日期:2024-10-22 16:15    点击次数:152

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了,两步完成模型部署和,并。

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布,近日完成了新一轮迭代,包括 Infinity-Instruct-7M 基础指令数据集和 Infinity-Instruct-Gen 对话指令数据集。Infinity Instruct数据集已经发布到了始智AIwisemodel.cn开源社区。

Infinity-Instruct-7M 包含 744 万条数学、代码、常识问答等领域的基础指令数据,用于进一步全面提升预训练模型的基础能力。Opencompass 测试结果显示,经过在 Infinity-Instruct-7M 数据集上的微调,Llama3.1-70B、Mistral-7B-v0.1 综合能力评价可基本对齐官方自己发布的对话模型,且 InfInstruct-7M-Mistral-7B 的综合评分超过了 GPT-3.5,InfInstruct-7M-Llama3.1-70B 已十分接近 GPT-4。

1

官方汇报结果

Infinity-Instruct-Gen 包含149 万条合成的复杂指令,用于提升模型在各种真实对话场景中回复的鲁棒性。基于该数据,对经过 Infinity-Instruct-7M 增强的模型做进一步 SFT,即可取得超过官方对话模型的效果。而大多数的官方对话模型除了做基本的 SFT 外,还会做 DPO/RLHF 等对齐训练以提升模型的对话能力,产生额外的训练成本。

智源在 MTBench、AlpacaEval2、Arena-Hard 三个主流榜单上评测了 Infinity-Instruct 7M+Gen 对模型对话能力的增益,其中,AlpacaEval2 和 Arena-Hard 与真实人类评价榜单 Chatbot Arena 有很高的一致率,MTBench 则评测模型的多轮对话能力。

如下左图所示,InfInstruct-7M-Gen-Mistral-7B,InfInstruct-7M-Gen-Llama3.1-8B,InfInstruct-7M-Gen-Llama3.1-70B 等经过 Infinity Instruct 微调的模型已经超越了官方对话模型的性能。Arena-Hard 上 InfInstruct-7M-Gen-Llama3.1-70B (66) 超过了 Llama3.1-70B-Instruct(55.7) 和 Llama3.1-405B-Instruct (64.1)。此外,如右下图所示,AlpacaEval2.0 榜单上,InfInstruct-7M-Gen-Llama3.1-70B (46.1) 更是超过了 GPT4-0314 (35.3),非常接近 GPT4-1106 (50) 的水准,真正实现了 GPT-4 级别的对话能力。

Infinity Instruct 数据集今年 6 月在 Flopsera,Huggingface 等平台发布后,快速到达了 Huggingface Dataset 的 Trending第一,且吸引大量基于 Infinity Instruct 的开源微调工作。

2

下载使用

Infinity-Instruct 可在wisemodel、Hugging Face、DataHub、Flopsera 等平台下载。

wisemodel

https://wisemodel.cn/datasets/BAAI/Infinity-Instruct

Hugging Face

https://huggingface.co/datasets/BAAI/Infinity-Instruct

DataHub

https://data.baai.ac.cn/details/InfinityInstruct

Flopsera

https://data.baai.ac.cn/details/InfinityInstruct

Infinity-Instruct 给每一条指令数据标注了语种、能力类型、任务类型、数据来源等信息,便于使用者根据自身需要筛选数据子集。

2

技术路线

智源研究院搜集了 7500 万余条开源指令作为待选指令池,采用数据选择与指令合成两条途径快速迭代,构建高质量的基础、对话指令数据集,以填补开源对话模型与 GPT-4 之间的基础能力、对话能力差距。

基础指令数据筛选

对于基础指令数据集,筛选流程主要考虑训练数据集和目标数据集数据分布的对齐,基于DSIR的思路,在训练数据集上进行排序,选取训练集的子集,拟合目标数据集的分布。

对话数据集生成、进化、评价

对于对话指令数据集,Infinity-Instruct 首先采样了部分高质量的开源指令集,并为每条指令分配一组标签,描述完成指令所需的能力和知识。标签系统共有两个级别:

第一级标签: 宏观类别,如 "自然语言处理 "和 "数学推理"。共包括 26 个类别。

第二集标签: 刻画具体任务,包含超过1.5w个类别。

基于此系统,就能识别指令集的内容分布以及完成不同任务所需的能力,构建一个高质量的种子数据集。随后,Infinity-Instruct 参考 WizardLM 的方法对种子指令在广度、深度方向上进行扩展,并用 AI Agent 从指令合规性的角度剔除未能进化的数据。最后,进化后的指令作为初始输入,使用 AI Agent 扮演不同角色,为每条指令生成 2 至 4 轮对话。

数据去污、去重

为避免构造的数据存在自身重复、或与评测榜单重复的样本,Infinity-Instruct 对所有数据应用了 MinHash 进行去重。并基于 BGE 检索剔除了和 AlpacaEval、MT-Bench 等评测榜单重复的样本。

训练框架

考虑到微调成本,项目使用 FlagScale 去掉训练样本中不必要的 pad,压缩样本量,同时应用模型切分、切分支持大模型在数百万量级指令数据集上的训练。初步测试可比传统微调框架,如 FastChat+Accelerate 快三倍以上。

3

未来规划

Infinity Instruct 未来将开源基础、对话指令数据处理的全流程代码,以及模型训练代码。同时,智源将探索扩展 Infinity Instruct 数据策略到对齐、预训练阶段,支持语言模型构建全生命周期的高质量数据需求。

Infinity RLAIF: 基于 Infinity Instruct 标签体系以及生成指令构建了 50K 对齐数据的第一个版本,实验结果显示,Infinity-Gemma-2-9B-SimPO 在 AlpacaEval 上达到 73.4,在 Arena Hard 上达到 59.1。未来会进行更多对齐数据、算法的探索。

Infinity Math: 基于多个开源数学数据集构建了可无限扩增的数学领域指令数据集,其中 POT 指令数据可提升在多个 7B 的基础语言模型和基础代码模型的 zero-shot 数学能力 180%-510%,相关论文被 CIKM 2024 接收,欢迎引用。

如果你有与AI开源、wisemodel 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,或者参与wisemodel社区组织的开源Talk系列分享,可以通过扫码添加下面wisemodel的微信号与我们取得联系。

编辑:成蕴年

----- END -----

wisemodel相关

系统升级

系列模型:

清华LongWriter模型输出万字长文不是梦

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:[email protected]

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到[email protected],也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看



上一篇:没有了
下一篇:没有了