在大型语言模型中,编码器(Encoder)和解码器(Decoder)是两个核心组件,它们分别处理输入数据和生成输出。通常来说,LLM中的编码器和解码器使用Transformer架构,以下是它们的基本概念:
解密注意力机制:为什么Flash Attention这么屌?
未经允许不得转载:小健博客 » 解密注意力机制:为什么Flash Attention这么屌?
在大型语言模型中,编码器(Encoder)和解码器(Decoder)是两个核心组件,它们分别处理输入数据和生成输出。通常来说,LLM中的编码器和解码器使用Transformer架构,以下是它们的基本概念: