一次看到爽!国内外类ChatGPT等模型大盘点!


于是浅浅的调研了一下比较有名的大语言模型,主要是想混个脸熟,整理完之后就感觉清晰多了,又可以轻松逛知乎学习了。

一. Basic Language Model


-
当前绝大部分的大语言模型都是 Decoder-only 的模型结构 ,原因请转移这个问题:为什么现在的LLM都是Decoder only的架构[1]; -
大部分大语言模型都不开源 ,而 OPT、BLOOM、LLaMA 三个模型是主要面向开源促进研究和应用的,中文开源可用的是 GLM,后续很多工作都是在这些开源的基础模型上进行微调优化的。
T5[2]

GPT-3[4]

LaMDA[6]

Jurassic-1[7]
MT-NLG[8]
-
一是 存储高效性 ,将模型参数全部拟合到及时最大GPT的内存中已不再可能; -
二是 计算高效性 ,若不同时优化算法、软件和硬件堆栈,所需的大量计算操作可能会导致不切实际的长训练时间;
Gopher[9]
Chinchilla[10]
PaLM[11]

U-PaLM[13]
OPT[15]
-
Github:metaseq/projects/OPT at main · facebookresearch/metaseq[16]; -
GitHub - facebookresearch/metaseq: Repo for external large-scale work[17]
LLaMA[18]
-
Github:https://github.com/facebookresearch/llama[19]
BLOOM[20]

-
Transformers:https://huggingface.co/bigscience[21]
GLM-130B[22]

-
Github:https://github.com/THUDM/GLM-130B[24]
ERNIE 3.0 Titan[25]


二. Instruction-Finetuned Language Model




T0[28]

FLAN[29]

Flan-LM[30]

BLOOMZ \& mT0[31]
GPT-3.5[32]
-
2020年7月,发布GPT-3 ,最原始的 GPT-3 基础模型主要有 davinci、curie、ada 和 babbage 四个不同版本,其中 davinci 是功能最强大的 ,后续也都是基于它来优化的; -
2021年7月,发布Codex[35],在代码数据上对 GPT-3 微调得到,对应着 code-davinci-001 和 code-cushman-001 两个模型版本; -
2021年3月,发布 InstructGPT[36] 论文,对 GPT-3 进行指令微调 (supervised fine-tuning on human demonstrations) 得到 davinci-instruct-beta1 模型;在指令数据和经过标注人员评分反馈的模型生成样例数据上进行微调得到 text-davinci-001, InstructGPT 论文中的原始模型对应着 davinci-instruct-beta; -
2021年6月,发布 code-davinci-002 ,是功能最强大的 Codex 型号,在文本和代码数据上进行训练,特别擅长将自然语言翻译成代码和补全代码; -
2021年6月,发布 text-davinci-002, 它是在code-davinci-002 基础上进行有监督指令微调得到; -
2021年11月,发布 text-davinci-003 和 ChatGPT[37] , 它们都是在 text-davinci-002 基础上利用人类反馈强化学习 RLHF 进一步微调优化得到。

ChatGPT[38]

GPT-4[39]
Alpaca[40]

-
博客:https://crfm.stanford.edu/2023/03/13/alpaca.html[42] -
Github:https://github.com/tatsu-lab/stanford\_alpaca[43]

ChatGLM[50]
-
博客地址:https://chatglm.cn/blog[53]
ERNIE Bot
Bard
本文参考资料
为什么现在的LLM都是Decoder only的架构:https://www.zhihu.com/question/588325646/answer/2940298964
[2]T5:https://arxiv.org/pdf/1910.10683.pdf
[3]mT5:https://arxiv.org/pdf/2010.11934.pdf
[4]GPT-3:https://arxiv.org/pdf/2005.14165.pdf
[5]生成式预训练模型:https://zhuanlan.zhihu.com/p/406751681
[6]LaMDA:https://arxiv.org/pdf/2201.08239.pdf
[7]Jurassic-1:https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf
[8]MT-NLG:https://arxiv.org/pdf/2201.11990.pdf
[9]Gopher:https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf
[10]Chinchilla:https://arxiv.org/pdf/2203.15556.pdf
[11]PaLM:https://arxiv.org/pdf/2204.02311.pdf
[12]Pathways:https://arxiv.org/pdf/2203.12533.pdf
[13]U-PaLM:https://arxiv.org/pdf/2210.11399.pdf
[14]UL2:https://arxiv.org/pdf/2205.05131.pdf
[15]OPT:https://arxiv.org/pdf/2205.01068.pdf
[16]metaseq/projects/OPT at main · facebookresearch/metaseq:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
[17]GitHub - facebookresearch/metaseq: Repo for external large-scale work:https://github.com/facebookresearch/metaseq
[18]LLaMA:https://arxiv.org/pdf/2302.13971v1.pdf
[19]https://github.com/facebookresearch/llama:https://github.com/facebookresearch/llama
[20]BLOOM:https://arxiv.org/pdf/2211.05100.pdf
[21]https://huggingface.co/bigscience:https://huggingface.co/bigscience
[22]GLM-130B:https://arxiv.org/pdf/2210.02414.pdf
[23]General Language Model, GLM:https://github.com/THUDM/GLM
[24]https://github.com/THUDM/GLM-130B:https://github.com/THUDM/GLM-130B
[25]ERNIE 3.0 Titan:https://arxiv.org/pdf/2112.12731.pdf
[26]ERNIE 3.0:https://arxiv.org/pdf/2107.02137.pdf
[27]Instruction:https://arxiv.org/pdf/2303.10475v2.pdf
[28]T0:https://arxiv.org/pdf/2110.08207.pdf
[29]FLAN:https://openreview.net/pdf?id=gEZrGCozdqR
[30]Flan-LM:https://arxiv.org/pdf/2210.11416.pdf
[31]BLOOMZ & mT0:https://arxiv.org/pdf/2211.01786.pdf
[32]GPT-3.5:https://platform.openai.com/docs/models/gpt-3-5
[33]ChatGPT进化的秘密:https://zhuanlan.zhihu.com/p/593519656?utm_source=zhihu
[34]拆解追溯 GPT-3.5 各项能力的起源:https://link.zhihu.com/?target=https%3A//yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
[35]Codex:https://arxiv.org/pdf/2107.03374.pdf
[36]InstructGPT:https://arxiv.org/pdf/2203.02155.pdf
[37]ChatGPT:https://openai.com/blog/chatgpt
[38]ChatGPT:https://openai.com/blog/chatgpt
[39]GPT-4:https://openai.com/research/gpt-4
[40]Alpaca:https://crfm.stanford.edu/2023/03/13/alpaca.html
[41]self-instruct:https://arxiv.org/abs/2212.10560
[42]https://crfm.stanford.edu/2023/03/13/alpaca.html:https://crfm.stanford.edu/2023/03/13/alpaca.html
[43]https://github.com/tatsu-lab/stanford_alpaca:https://github.com/tatsu-lab/stanford_alpaca
[44]Alpaca-LoRA:https://github.com/tloen/alpaca-lora
[45]low-rank adaptation (LoRA):https:///arxiv.org/pdf/2106.09685.pdf
[46]KoAlpaca:https://github.com/Beomi/KoAlpaca
[47]Japanese-Alpaca-LoRA:https://github.com/masa3141/japanese-alpaca-lora
[48]Chinese-Vicuna (小羊驼)模型:https://github.com/Facico/Chinese-Vicuna
[49]Luotuo(骆驼): Chinese-alpaca-lora:https://github.com/LC1332/Chinese-alpaca-lora
[50]ChatGLM:https://chatglm.cn/blog
[51]GLM-130B:https://openreview.net/pdf%3Fid%3D-Aw0rrrPUF
[52]ChatGLM-6B:https://github.com/THUDM/ChatGLM-6B
[53]https://chatglm.cn/blog:https://chatglm.cn/blog
来源:架构师
声明:此公号(ID:czfida)发布内容和图片的目的在于传播更多信息,版权归原作者所有,不为商业用途,如有侵犯,敬请作者与我们联系。
