Tokenization and Embedding

Questions 阅读资料并解释什么是 tokenization 和 embedding 在自然语言处理(NLP)和大语言模型(LLM)中,Tokenization(分词)和Embedding(嵌入)是两个关键步骤,它们将原始文本转换为模型可以理解和处理的形式。 🧩 Tokenization(分词) 定义:Tokenization 是将原始文本拆分成更小的单元(称为 tokens)的过程,这些 tokens 可以是单词、子词、字符,甚至是符号。 目的:将文本转换为模型可处理的基本单位。 常见方法: 空格分词:基于空格将文本拆分成单词。 WordPiece:将词分解为更小的子词单元,常用于 BERT 模型。 Byte-Pair Encoding (BPE):基于频率合并字符或子词,常用于 GPT 系列模型。 示例: 原始文本:“It’s over 9000!” 空格分词:[“It’s”, “over”, “9000!”] WordPiece:[“It”, “’”, “s”, “over”, “9000”, “!”] BPE:[“It”, “’s”, " over", " 9000", “!”] 每个 token 通常会被映射到一个唯一的数字 ID,供模型使用。 🧠 Embedding(嵌入) 定义:Embedding 是将 tokens 映射到连续向量空间的过程,使得模型能够捕捉词汇的语义和上下文信息。 目的:将离散的 token ID 转换为模型可以处理的连续向量。 实现方式: 词袋模型(Bag of Words):统计词频,忽略词序。 TF-IDF(词频-逆文档频率):考虑词频和逆文档频率的加权。 Word2Vec、GloVe:基于上下文训练词向量。 Transformer 模型中的嵌入层:如 BERT、GPT 等模型使用嵌入层将 token ID 转换为向量。 示例: 对于 token ID 序列 [101, 2009, 1005, 1055, 2058, 7706, 2692, 999, 102],嵌入层将其转换为对应的向量表示,供模型进一步处理。...

May 29, 2025 · 1 min · LwQ

LLM Decoding Strategy

Questions 一、以下是几个目前大语言模型常用的解码策略(一般在调用模型的API中可以设置),请解释它们的基本原理及使用方式 贪心搜索 (Greedy search)、波束搜索 (Beam search)、Top-K 采样 (Top-K sampling) 以及 Top-p 采样 (Top-p sampling) 二、请解释 温度(temperature) 的基本原理及使用方式 Answer 一、解码策略基本原理及使用方式 贪心搜索(Greedy Search) 📌 原理: 每一步都选择概率最高的下一个 token(词/子词)。 📈 特点: 最快,计算简单; 可能错过全局最优解; 生成的文本往往比较“机械”或者“无趣”。 🧠 举个例子: 输入:“The weather is” 模型预测:“sunny”(90%),“cloudy”(5%),“rainy”(5%) → 贪心搜索会 直接选择 “sunny” 波束搜索(Beam Search) 📌 原理: 同时保留 k 个最有可能的候选序列(beam width),每一步扩展所有候选,然后选出得分最高的 k 个序列继续。 📈 特点: 比贪心更好,能找到更优的整体结果; 但会带来重复、啰嗦问题(比如重复短语); 计算成本高于贪心。 🔧 参数: beam width(波束宽度)常用值:3、5、10 🧠 类比: 像是在走迷宫,不止走一条路,而是并行尝试几条路,最后选得分最高的那条。 Top-K 采样 📌 原理: 每一步只从概率最高的 K 个 token 中随机采样一个。...

April 24, 2025 · 2 min · LwQ