官网直达
我们的开源
我们正在与社区一起建立机器学习工具的基础。
1.稳定羊驼的特性
据悉,StableVicuna是一个拥有 130 亿参数的大语言模型,具备 RLHF 和指令调优两大特性。除了支持生成文本外,它还具备基础数学、编写代码和讲解语法的功能。相较于其他开源模型,StableVicuna更接近于 ChatGPT 的特性。与传统的基于规则的聊天机器人相比,StableVicuna 能够更好地理解用户的意图,并给出更加人性化的回应
Stability AI 表示,ChatGPT 取得空前成功的两大法宝是指令微调和 RLHF。然而,对于中小型企业或普通开发人员来说,训练 RLHF 并非易事,因为强化学习常常面临模式坍塌、反馈稀疏、数据集难筹备以及算力成本高昂等问题。
市面上虽然有许多开源的 ChatGPT 类模型,但由于缺乏 RLHF 的支持,生成内容的拟人化相较于 ChatGPT 仍有很大差距,甚至有些显得“傻”。
2.RLHF 的重要性
AI社区构建未来。机器学习社区在模型、数据集和应用程序上进行协作的平台。
RLHF 的中文译为“人类反馈强化学习”,是一种结合人类指导和自动强化学习的训练方法。通过对人类对 AI 行为的评价或指导,tableVicuna 对话示例。Stable Diffusion XL 生成的「Stable Vicuna」。Stability AI 表示,StableStudio 未来可能会更新以下功能:通过 WebGPU 进行局部推理通过 stable-diffusion-webui 进行RLHF 帮助 AI 在学习过程中做出更好的决策。由于人类能够通过直觉、视觉和实践经验等方式帮助 AI,应用 RLHF 的产品在拟人化方面取得了显著的提升。
简而言之,RLHF 可以被看作是一种“妈妈教孩子”的训练方法。AI 好比刚刚出生、毫无经验的孩子,在学习过程中,母亲(RLHF)会告诉他如何避免错误,以及更好的学习方法,使得孩子能够在这种不断反馈的学习环境中快速成长。
通常,RLHF 包括无监督预训练、有监督微调、奖励模型和基于奖励模型的强化学习四个步骤。
- 无监督预训练:AI 开始学习一个任务,可能采用随机或基于某种启发式策略,例如从一个预训练好的语言模型开始,如 GPT-3。
- 有监督微调:AI 在执行任务时,通过连续的评分或奖励,人类对其行为进行评估,然后对预训练的模型进行微调,以增强其拟人化能力。
- 奖励模型:建立一个奖励模型对语言模型的输出进行评分,AI 根据人类的奖励反馈优化其策略,以在未来的输出中更好地执行任务。
- 基于奖励模型的强化学习:AI 不断执行任务,接收人类反馈,并根据反馈更新其输出行为,直到达到人类满意的水平。
3.稳定羊驼的技术原理
为了让 StableVicuna 具备指令微调和 RLHF 技术特性,Stability AI 采用了一种多模式的组合方法。他们将 Vicuna、OpenAssistant、trlx 和 GPT4All 开源模型组合在一起,实现了这一目标。主要分为以下三个步骤:
- Stability AI 将 OpenAssistant、GPT4All、Alpaca 的核心训练数据集混合在一起,训练了具有监督微调的基础模型 Vicuna。
- 使用 trlx 训练了一个奖励模型,该模型基于开源模型的 RLHF 偏好数据集,进一步初始化了模型。
- 最后,使用 trlX 进行行为策略强化学习,对初始化模型进行 RLHF 训练,最终实现了 StableVicuna。
Stability AI 表示非常感谢 OpenAssistant 团队提供了 RLHF 数据集的访问权限。如果没有这些珍贵的偏好训练集,StableVicuna 将无法在短时间内完成训练。
当前,用户想要使用 StableVicuna,需要获得原始 LLaMA 模型的访问权限。获得权重增量和 LLaMA 权重后,通过 GitHub 存储库提供的脚本将它们组合起来,就能够使用!StableVicuna。