本文主要从模型推理角度去总结 llama1-3 模型论文和报告,因此没有涉及到数据集处理、模型训练及试验报告的细节,更多的是介绍了 LLaMA 模型的主要思想以及模型结构的细节。
GPT3.5 是一个系列模型,也就是保持基本训练框架不变,用不同的数据做指令微调,会得到不同的模型,这些模型都叫做 GPT3.5。
multi-head attention 的结构