大模型调研

背景

ChatGPT 2022.11 月问世之后引起的轰动一直在上升，但类似的做法和能力，在bert 2018年出现的时候基本就有了，一般认为 ChatGPT 的出现，是大模型大到一定程度后，能容纳的知识更加丰富，能力产生了质变，能应用几乎所有的对话类任务。

ChatGPT的训练成本过高，传言预训练一次需要200w美金，这应该也是openai 能在这个领域一骑绝尘的原因，并不是每个公司都有眼光和胆魄愿意花费这么大成本训练一个模型。

如此大的模型和高昂的训练成本，使个人很难低成本参与进去，圈内玩家基本是各个巨头公司。但偶发发现最近开了一大批大模型相关的项目，就调研看了看。

Auto-GPT: 用户输入目标，Auto-GPT 利用 ChatGPT 生成一个机器人，利用各种prompt让GPT理解用户输入的目标，制作能实现目标的计划，一步步实施。本质还是用 prompt 扩展 ChatGPT 的使用边界。

Open-Assistant: 开源大模型，通过用户收集高质量数据，来微调模型

AgentGPT: Auto-GPT 的界面版本，让普通用户能更直接使用

llama: mate 公开 llama 65B 预训练模型，可用于研究，不可用于商业使用；给大模型的开源届提供了基石

stanford_alpaca: 斯坦福基于mate公开的大模型微调出的语言模型，命名为羊驼

lm-sys FastChat: lm-sys 参考羊驼训练的语言模型，效果逼近ChatGPT，最小的7B版本可以在单卡 28G显存的卡上微调

Lm-sys score borad: lm-sys 大语言模型榜单，模型对比竞技场

ChatGPT: ChatGPT 发布

ChatGPT plugins: 插件，丰富AI生态

GPT4: GPT4 发布，吊打各大榜单

Claude: openAI 原班人马创业训练的大模型，是目前最逼近GPT4效果的模型

6个月暂定大模型研究: 大模型发展太快，相应的风险措施跟不上，开始呼吁暂停大模型的研究

无法避免大模型胡说八道：模型的预训练方式应该还是基于自回归，模型架构是 transformer，更多利用的还是基于语言的统计信息，逻辑推理能力较弱；简言之，大模型知识储备虽然吊打1000个人，但它输出的准确性并不是100%

现在的大模型架构无法支持走向AGI：现在大模型的归因和规划能力（逻辑能力）还不够，不足以走向AGI（强人工智能）

如果让大模型可控、安全

大模型现在未解决的主要问题就是逻辑能力，如果大模型已有的架构能解决此问题，那就直接实现了AGI。否则 AGI 需要另外一种新的架构，我个人稍微倾向于后者。

基于多个原因，我暂时还是看看我的自动驾驶项目吧