欢迎光临
我们一直在努力

探秘Transformer系列之(6)— token

从前面章节我们可以知道,Transformer接受的是高维向量(word embedding),而从文本到向量的转换分为两个阶段:分词和embedding化,分别产出token和word embedding。在构建大模型的过程中,token 分词与word embedding扮演着举足轻重的角色。它们不仅是模型理解文本语言的基础,还深刻影响着模型的性能与精度。本篇会介绍如何做好单词到数字的映射,下一篇介绍如何从数字转换到embedding。

未经允许不得转载:小健博客 » 探秘Transformer系列之(6)— token
分享到: 更多 (0)

大前端WP主题 更专业 更方便

联系我们联系我们