StableVicuna官网,稳定羊驼,大规模开源聊天机器人

什么是StableVicuna?

知名开源平台Stability AI在官网宣布开源了，全球首个用RLHF训练的类ChatGPT大语言模型——StableVicuna(稳定羊驼),它是第一个通过RLHF训练的大规模开源聊天机器人!语言模型方面，他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna，基于小羊驼Vicuna-13B模型实现。

StableVicuna官网开源地址：

https://huggingface.co/spaces/CarperAI/StableVicuna

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

StableVicuna

据悉，StableVicuna是一个130亿参数的大语言模型，具备RLHF和指令调优两大特性，除了支持生成文本之外，还具备基础数学、编写代码和讲解语法功能。这也是目前最接近ChatGPT特性的开源模型（测试地址：

Stability AI表示，ChatGPT能获得空前成功有两大法宝一个是指令微调，另外一个就是RLHF。但中小型企业或普通开发人员想训练RLHF并不容易，强化学习很容易遇到模式坍塌，反馈过于稀疏、数据集难筹备、算力成本过高等难题。

所以，我们看到市面上开源类ChatGPT的模型很多，但是生成内容的拟人化方面比ChatGPT差很远甚至有点“傻”，主要原因就是缺少RLHF的支持。

StableVicuna

什么是RLHF

RLHF的中文译为“人类反馈强化学习”，是一种结合人类指导和自动强化学习的训练方法! 人类通过对AI的行为进行评价或指导，帮助其在学习过程中做出更好的决策。由于人类可以通过直觉、视觉和实践经验等来帮助AI，因此，应用RLHF的产品在拟人化方面获得大幅度提升。

StableVicuna

简单来说，可以把RLHF看成是一种“妈妈教孩子”的的训练方法。AI相当于刚出生毫无经验的孩子，当他摔倒在地时，母亲（RLHF）会告诉他如何避免摔倒，以及更好的走路方法，孩子可以在这种不断反馈的学习环境中快速成长。

通常RLHF有无监督预训练、有监督的微调、奖励模型和基于奖励模型的强化学习4个步骤组成。

StableVicuna

无监督预训练：AI开始学习一个任务，可能会采用随机的策略或基于某种启发式的策略。例如，从一个预训练好的语言模型开始，如GPT-3。

有监督的微调：AI在执行任务时，人类会对其行为进行评估。评估可以是连续的，例如，分数或奖励。也可以是离散的，例如，对某个行为是否正确的二元反馈。然后对预训练的模型进行微调，增强其拟人化能力。

奖励模型：建立一个奖励模型对LLM的输出进行评分。AI根据人类的奖励反馈，会自动优化其策略，以便在未来的输出中更好地执行任务。

基于奖励模型的强化学习：AI会基于奖励模型不断地执行任务，接收人类反馈，并根据反馈更新其输出行为。这个过程会持续进行，直到AI的表现达到人类满意的水平。

StableVicuna技术原理

Stability AI为了让StableVicuna像ChatGPT那样同样具备指令微调和RLHF技术特性，采用了一种多模式的组合方法。Stability AI将Vicuna、OpenAssistant、trlx和GPT4All开源模型组合在一起实现这一目标。简单来说主要有三大步骤组成。

StableVicuna

首先，Stability AI将OpenAssistant、GPT4All、Alpaca的核心训练数据集混合在一起，训练具有监督微调的基础模型Vicuna。

然后使用trlx 训练一个奖励模型，该模型基于上述开源模型的RLHF偏好数据集，进一步初始化模型。

最后，Stability AI使用trlX进行行为策略强化学习，对初始化模型进行RLHF训练最终实现StableVicuna。

StableVicuna

Stability AI表示，非常感谢OpenAssistant的团队为其提供了，他们RLHF数据集的访问权限。如果没有这些珍贵的偏好训练集，StableVicuna无法在短时间内训练完成。

目前，用户如果想使用StableVicuna需要获得原始LLaMA模型的访问权限。获得权重增量和LLaMA 权重后，使用GitHub存储库中提供的脚本将它们组合起来，就能使用StableVicuna。

免责声明+浏览说明

特别声明

本站别摸鱼导航提供的StableVicuna都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由别摸鱼导航实际控制，在2023年6月11日上午12:02收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，别摸鱼导航不承担任何责任。请在浏览网页时,注意个人账号和财产安全!切勿轻信网上广告!

别摸鱼导航致力于优质、实用的网络站点资源收集与分享！本文地址https://biemoyu.com/sites/stablevicuna.html转载请注明