Token 是 AI 模型用來「讀懂」文字的最小單位。掌握 token,你就能更準確地估成本、控長度、提品質。本文帶你從觀念到實作,一次搞定——哦不,我們用台灣說法:一文看懂。
1. 引起動機:為什麼大家都在談 Token?
你常會聽到「這段提示 2,000 tokens」、「這個模型支援 128k tokens」或「費用依 token 計算」。關鍵原因是:模型不是用『字』或『詞』來思考,而是用『token』來處理語言。理解 token,能幫你 估成本、控長度、提品質。
示意:把文章想像成積木城堡;token 就是大小相近的積木,方便模型規律地堆疊與計算。
2. 現況說明:不同語言、不同比例
- 英文:常把單字拆成 1–3 個 token;粗估
1 token ≈ 4 英文字符 ≈ 0.75 個英文單字。 - 中文(繁/簡):多數情況 一個字 ≈ 一個 token,標點與空白也會計入。
- 混合文本(中英、程式碼、URL)依實際分詞結果計算。
提醒:不同模型/字典(Tokenizer)會略有差異,以上皆為實務估算,正式計費以實際分詞為準。
3. 基本概念:Token、Tokenizer 與 Vocabulary
Token 是最小可運算的文字片段;Tokenizer(如 BPE、SentencePiece)負責把文字切片;Vocabulary 是可用 token 的全集;Detokenize 則把 token 還原可讀文本。
示意:Vocabulary 就像積木盒中的所有型號;Tokenizer 負責把文章切成這些型號,讓模型能拿取組裝。
4. 成本與長度:Prompt vs. Completion、Context Window
- Prompt tokens:送進模型的全部內容(系統訊息、歷史對話、提示、工具格式、JSON 結構等)。
- Completion tokens:模型回覆所用 token。
- 常見計費:輸入單價 × Prompt tokens + 輸出單價 × Completion tokens。
- Context Window:一次能處理的 token 上限(例如 128k)。超過就需先摘要或分段。
5. 拆解範例
以 你好,世界!Hello, world! 為例,中文多半一字一 token,標點也算;英文常見把 Hello 與前導空白 world 拆成兩個 token(實際依 tokenizer 而定)。
【概念圖】
你|好|,|世|界|!|Hello|,| world|!
你|好|,|世|界|!|Hello|,| world|!
6. 常見情境與建議
A. 寫作/客製輸出
- 先定義結構(標題、清單、表格或 JSON 欄位),再請模型填內容 → 更省 token 且更穩定。
- 控制輸出:明確要求「不超過 300 字/5 點重點」。
B. 文件處理/知識庫
- 長文先做章節摘要或向量化,避免整檔貼入。
- 重複片段以引用 ID 表示(如《合約 §2.1》),需求時再展開。
C. 成本控管
- 事前用官方 tokenizer 粗估 token 與費用。
- 範本抽離成「短代碼」,減少每次貼上的體積。
7. 省 token 的 10 個技巧
- 刪冗語與重複背景;避免每回合重貼相同上下文
- 優先用結構化(JSON/清單)而非長篇敘述
- 表格改貼 CSV;數據以「欄位:值」精簡
- 先摘要再問;大綱→逐段擴寫
- 工具呼叫只傳必要欄位;不傳空值
- 固定樣板用代碼(如
{{LEGAL_V2}})代表 - 鏈式任務:先定義格式,再依序填入
- 限制輸出段數/字數/最大 token
- 網址以短代碼表達;需要時再展開
- 清理多餘 Markdown 裝飾與空白
8. 進階主題:BPE 與 SentencePiece
BPE 自字元開始,不斷合併最常見字元對,形成穩定的子詞表;SentencePiece 以「字串」角度學子詞,對空白與邊界更彈性,多語場景常見。
9. 自我驗算:如何數 token?
可用官方或相容的 tokenizer(如 tiktoken)離線估算。
# 概念示例(需安裝對應套件與正確模型字典)
import tiktoken
enc = tiktoken.get_encoding("cl100k_base")
text = "你好,世界!Hello, world!"
ids = enc.encode(text)
print(len(ids)) # token 數
提醒:不同模型可能有不同字典;正式計費以實際服務端為準。
10. FAQ
中文字一定是一字一 token 嗎?多數情況接近,但仍依 tokenizer 與字典而定;標點、特殊符號也會計入。
128k tokens 到底有多長?中文粗估 \~128,000 字;英文約 \~96,000 單字(粗估)。實際會因內容類型與混雜語言而變動。
如何壓低成本?先摘要、用結構、刪冗語、限制輸出長度;並以 token 計算器估算再下指令。
免責聲明:本文為一般性技術與實務建議,僅供研究與教育用途;實際 token 計價、上下文長度與切分規則會因服務提供者與模型版本而異,請以官方文件與實際執行結果為準。請遵守各平台與 API 的使用條款,不得用於違法或侵害他人權益之用途。
文章標籤
全站熱搜
