第03期 - llama系列模型结构详解
2024/10/28

本文主要从模型推理角度去总结 llama1-3 模型论文和报告,因此没有涉及到数据集处理、模型训练及试验报告的细节,更多的是介绍了 LLaMA 模型的主要思想以及模型结构的细节。

第02期 - gpt系列论文解读
2024/10/28

GPT3.5 是一个系列模型,也就是保持基本训练框架不变,用不同的数据做指令微调,会得到不同的模型,这些模型都叫做 GPT3.5。

第01期 - transformer论文解读
2024/10/28

multi-head attention 的结构