Internal workshop · ~3 tiếng

Tối ưu Token khi dùng Claude

Bớt lãng phí, làm việc nhanh hơn, tiết kiệm chi phí — 1 tiếng lý thuyết + 2 tiếng workshop với 4 bài tập nhóm.

Dành cho: nhân viên dùng Claude.ai · Claude Code · Cowork

Mở đầu

Tại sao phải quan tâm đến token?

Mỗi lần bạn gõ một câu hoặc Claude trả lời, hệ thống phải "đọc" và "viết" bằng đơn vị gọi là token. Nhiều token hơn = chậm hơn, đắt hơn, và chất lượng trả lời thường tệ hơn khi ngữ cảnh quá dài.

3–10×

chi phí có thể chênh

giữa người dùng Claude hiệu quả và người dùng lãng phí, cùng một đầu việc.

200K

token/context

giới hạn "bộ nhớ làm việc". Khi gần đầy, Claude trả lời kém chính xác hơn.

40–70%

giảm token

báo cáo thực tế từ cộng đồng khi áp dụng đúng kỹ thuật.

Mục tiêu buổi chia sẻ

Sau 3 tiếng, bạn sẽ biết

01Token & context window thực chất là gì

027 thói quen đang "đốt" token của bạn

037 mẹo tối ưu áp dụng ngay

04Cách chọn đúng model cho đúng việc

05Thực hành 4 bài tập theo nhóm

06Cam kết 3 thói quen mới cho 2 tuần tới

Phong cách: ít lý thuyết, nhiều ví dụ "trước / sau". Cứ ngắt lời để hỏi.

Phần 1

Token hoạt động
như thế nào?

Hiểu cơ chế trước khi tối ưu — 10 phút.

Khái niệm

Token là gì?

Token là "mảnh chữ" mà mô hình xử lý. Một từ tiếng Việt thường ≈ 1–3 token. Một câu dài 20 chữ ≈ 30–50 token.

Quy ước Đơn vị tính phí

Input token: chữ bạn gửi + tài liệu đính kèm + lịch sử chat trước đó.
Output token: chữ Claude trả lời.
Output token thường đắt gấp 4–5 lần input token.

Ví dụ nhỏ

Câu "Xin chào, hôm nay trời đẹp quá" ≈ 12 token.

Một file PDF 10 trang ≈ 3.000–5.000 token.

Một repo code nhỏ được Claude đọc hết ≈ 30.000–100.000 token.

→ Đó là lý do "nhờ Claude đọc cả dự án" rất đắt.

Cơ chế then chốt

Context window — "bộ nhớ làm việc" của Claude

Claude đọc lại TOÀN BỘ cuộc trò chuyện mỗi lần bạn gửi tin nhắn mới. Chat càng dài, mỗi lượt càng đắt và càng chậm.

TRƯỚC Chat 30 lượt trong 1 phiên

Lượt 30 = Claude đọc lại 29 lượt trước + toàn bộ file đã upload + câu mới.

Nếu lượt 1 tốn 500 token, lượt 30 có thể tốn 15.000+ token chỉ để đọc lịch sử.

SAU Tách phiên theo chủ đề

Mỗi chủ đề mới → chat mới. Context gọn, trả lời nhanh và chính xác hơn.

Cần giữ thông tin cũ? Nhờ Claude tóm tắt, copy đoạn tóm tắt mở chat mới.

Chọn model

Giá 3 dòng Claude hiện tại Tính trên 1 triệu token

Model	Input	Output	Dùng cho
Claude Haiku 4.5	$1,00	$5,00	Việc đơn giản, lặp lại: tóm tắt, phân loại, chỉnh chính tả
Claude Sonnet 4.6Mặc định	$3,00	$15,00	Đa số công việc: viết báo cáo, code thường, phân tích vừa
Claude Opus 4.6	$5,00	$25,00	Bài toán khó: refactor lớn, lập kế hoạch, reasoning sâu

→ Ghi nhớ: Opus đắt gấp 5 lần Haiku. Dùng sai model cho việc đơn giản là nguồn lãng phí lớn nhất.

Phần 2

7 thói quen
đang "đốt" token

Mỗi lỗi đều kèm ví dụ thực tế và cách sửa — 20 phút.

Lỗi #1 Mọi kênh

Nhồi mọi việc vào một cuộc chat duy nhất

TRƯỚC Chat "vạn năng"

Sáng hỏi công thức Excel → trưa nhờ dịch email → chiều nhờ review code Python — tất cả trong một chat.

Chat: "VN Stock Daily"
L1:  Viết prompt cho báo cáo
L15: Dịch hợp đồng tiếng Anh
L25: Debug Python script
L40: Nhờ tóm tắt tuần này

→ Tới lượt 40, mỗi câu trả lời đọc lại 40 lượt + file cũ. Chậm, đắt, dễ nhầm ngữ cảnh.

SAU Mỗi chủ đề, một chat

Đổi việc → mở chat mới.
Claude.ai: dùng Projects để gom các chat cùng chủ đề.
Claude Code: gõ /clear khi chuyển việc.

Mẹo: đặt tên chat rõ ràng ("Báo cáo T4 - marketing") giúp bạn tái sử dụng đúng ngữ cảnh.

Lỗi #2 Claude.ai Cowork

Upload lại cùng một tài liệu ở nhiều chat

TRƯỚC Dán lại quy trình mỗi lần

Mỗi chat mới đều gửi kèm file "Cẩm nang viết báo cáo TCBS.pdf" dài 40 trang.

Chat 1: upload file 40 trang → hỏi
Chat 2: upload file 40 trang → hỏi
Chat 3: upload file 40 trang → hỏi
...

→ 40 trang ≈ 15.000 token, mỗi lần bạn đều phải "trả tiền" để hệ thống đọc lại từ đầu.

SAU Dùng Projects hoặc Memory

Projects (Claude.ai): upload file 1 lần vào project, mọi chat trong project đều truy cập được, hệ thống chỉ lấy phần liên quan.
Memory: lưu các quy ước cá nhân ("tôi viết bằng tiếng Việt, giọng trang trọng").
Cowork: chọn thư mục làm việc; file trong thư mục được truy cập khi cần, không phải upload lại.

Lỗi #3 Mọi kênh

Prompt mơ hồ → phải làm đi làm lại nhiều lần

TRƯỚC Câu lệnh quá mở

"Viết cho tôi một bài về AI."

Claude viết 800 chữ kiểu blog. Bạn sửa: "không, tôi muốn ngắn hơn". Lại sửa: "cho nghiêm túc hơn". Lại: "thêm số liệu"...

→ 5 lượt qua lại, mỗi lượt đọc lại mọi bản nháp trước. Tốn gấp 5–10 lần so với làm đúng ngay từ đầu.

SAU Prompt đủ ngữ cảnh + ràng buộc

"Viết đoạn 150 chữ giới thiệu AI
 cho nhân viên ngân hàng (không
 chuyên CNTT). Giọng trang trọng.
 Kết thúc bằng 1 ví dụ thực tế.
 Không bullet point."

Công thức 4 phần: Vai trò – Nhiệm vụ – Ràng buộc – Định dạng.

Lỗi #4 Mọi kênh

Dùng Opus cho mọi việc "cho chắc"

TRƯỚC "Opus cho yên tâm"

Bạn chọn Opus để viết email xin nghỉ phép, sửa chính tả 1 đoạn văn, hoặc chuyển tên file sang Title Case.

→ Đắt gấp 5 lần Haiku mà chất lượng không khác biệt cho các việc này.

SAU "Right model, right job"

Haiku: tóm tắt, phân loại, sửa chính tả, trích xuất dữ liệu đơn giản.
Sonnet (mặc định): viết lách, code vừa, phân tích tài liệu.
Opus: bài toán khó cần suy luận nhiều bước, kiến trúc hệ thống, review sâu.

Claude Code: gõ /model để đổi nhanh.

Lỗi #5 Claude Code Cowork

Đẩy cả log / cả thư mục vào context

TRƯỚC "Đọc hết rồi sửa giúp"

"Đây là file log 2000 dòng,
 stack trace đầy đủ, app output.
 Xem giúp bug."

Hoặc: "Đọc hết repo này rồi gợi ý refactor" — Claude đọc 100k+ token mới bắt đầu nghĩ.

SAU Cắt gọn phần cần thiết

Chỉ dán stack trace và dòng lỗi, không phải toàn bộ log.
Chỉ đường dẫn file cụ thể thay vì "đọc cả dự án".
Claude Code: thêm .claudeignore để loại node_modules, dist, file build.
Dùng subagent cho tác vụ khám phá — context cô lập, không phình chat chính.

Lỗi #6 Claude Code

Không dùng /clear, /compact, /cost

TRƯỚC Một phiên chạy cả ngày

Mở Claude Code sáng, làm đủ thứ việc đến chiều. Không bao giờ nhìn token đã tiêu, không bao giờ xoá ngữ cảnh cũ.

→ Đến cuối ngày, mỗi lệnh tốn gấp hàng chục lần so với buổi sáng.

SAU Ba lệnh cần thuộc lòng

/cost — xem đã tiêu bao nhiêu token & tiền.
/clear — xoá sạch ngữ cảnh, bắt đầu lại. Dùng khi đổi chủ đề.
/compact "giữ lại quyết định & code đã viết" — nhờ Claude tự tóm gọn lịch sử, giữ điểm quan trọng.

Lỗi #7 Mọi kênh

Để Claude trả lời lan man — output mới là khoản đắt

TRƯỚC Không giới hạn đầu ra

"Giải thích OAuth2 cho tôi."

Claude trả lời 1.500 chữ, 12 bullet, 3 ví dụ code, 2 đoạn mở bài & kết luận.

→ Output token đắt gấp 5× input. Lan man = đốt tiền thẳng.

SAU Ép format & độ dài

"Giải thích OAuth2 trong đúng
 4 câu. Không bullet, không code."

"Trả lời bằng 1 câu."
"Chỉ đưa code, không giải thích."
"Tối đa 3 ý chính."

Giảm output = giảm chi phí nhanh nhất và đơn giản nhất.

Phần 3

7 mẹo
áp dụng ngay

Gộp lại thành thói quen — 20 phút.

Mẹo #1 Mọi kênh

Chọn đúng model cho đúng việc

Công việc	Model đề xuất	Lý do
Dịch, tóm tắt email, chỉnh chính tả	Haiku	Đủ nhanh, rẻ nhất
Viết báo cáo, phân tích số liệu vừa	Sonnet	Cân bằng chất lượng / giá
Code tính năng mới, debug phức tạp	Sonnet → Opus nếu kẹt	Bắt đầu rẻ, leo thang khi cần
Thiết kế kiến trúc, refactor lớn, reasoning sâu	Opus	Đáng đồng tiền

Quy tắc vàng: bắt đầu bằng Sonnet, chỉ "leo" lên Opus khi thật sự cần.

Mẹo #2 Mọi kênh

Công thức prompt 4 phần

Vai trò · Nhiệm vụ · Ràng buộc · Định dạng

Vai trò — "Bạn là nhân viên HR chuyên viết email nội bộ."
Nhiệm vụ — "Viết email thông báo nghỉ lễ 30/4."
Ràng buộc — "Giọng thân thiện, tiếng Việt, không dùng tiếng Anh."
Định dạng — "Tối đa 120 chữ, không bullet."

KẾT QUẢ Đúng ngay lần đầu

Ít lượt sửa → ít token. Claude không phải đoán → trả lời đúng mong đợi.

Thực tế: prompt tốt hơn có thể giảm 50–70% output token chỉ vì bạn không phải làm lại 3–4 lần.

Mẹo #3 Claude.ai

Nút Edit thay vì nhắn câu mới

TRƯỚC Gửi tin nhắn tiếp theo

Bạn: "Viết bài blog về AI"
Claude: [800 chữ]
Bạn: "Ngắn hơn"
Claude: [400 chữ]
Bạn: "Thêm ví dụ"
Claude: [500 chữ + ví dụ]

→ 3 lượt, mỗi lượt mang theo lượt trước. Chat dài ra, context phình nhanh.

SAU Nhấn Edit trên câu gốc

Rê chuột lên câu bạn đã gửi, bấm biểu tượng Edit, viết lại prompt với đầy đủ yêu cầu.

Claude bắt đầu lại từ câu đã sửa — các phiên bản cũ bị thay thế, không chồng chất.

Mẹo nhỏ nhưng tiết kiệm token bậc nhất đối với người dùng web.

Mẹo #4 Claude.ai

Dùng Projects cho tài liệu lặp lại

Khi nào nên tạo Project?

Bạn dùng đi dùng lại cùng một bộ tài liệu (cẩm nang, template, brief).
Bạn cần Claude nhớ phong cách viết của công ty.
Nhiều người trong team cùng làm trên một chủ đề.

LỢI ÍCH Token tiết kiệm 2 cách

Tài liệu được retrieval (chỉ lấy đoạn liên quan), không nhồi cả file mỗi lượt.
Prompt chỉ dẫn chung (tone, glossary) viết 1 lần, dùng cho mọi chat trong project.

Tương đương: Claude Code có CLAUDE.md, Cowork có thư mục làm việc.

Mẹo #5 Claude Code

Luồng làm việc chuẩn trên Claude Code

# Bắt đầu phiên
$ claude                         # mở Claude Code
/model sonnet                    # chọn model rẻ-đủ-dùng

# Trong lúc làm
/cost                            # kiểm tra token đã tiêu
/compact "giữ decisions + code" # tóm lịch sử khi context lớn

# Chuyển việc
/clear                           # xoá sạch ngữ cảnh, bắt đầu chủ đề mới

# Với task lớn
→ tách subagent để khám phá repo, không phình context chính

Thêm .claudeignore vào dự án để chặn các thư mục nặng: node_modules, dist, *.lock, ảnh binary.

Mẹo #6 Claude Code

Viết CLAUDE.md ngắn gọn — dưới 2.000 token

TRƯỚC CLAUDE.md 10.000 token

## Về công ty
## Toàn bộ coding style
## Danh sách 200 folder
## Lịch sử 3 năm dự án
## ... (dài vô tận)

File này được nhồi vào MỌI request. To bao nhiêu là bạn "trả tiền" cho nó bấy nhiêu, mỗi lần.

SAU Chỉ 5 nguyên tắc then chốt

## Rules
1. Python 3.11, type hints mọi hàm
2. Test trước khi commit (pytest)
3. Không sửa file trong /vendor
4. Dùng tiếng Việt trong comment
5. Xem kiến trúc: docs/ARCH.md

Chi tiết phức tạp → để ở file khác, chỉ đường dẫn khi Claude cần.

Mẹo #7 Mọi kênh

Tận dụng Prompt Caching (tự động)

Claude Code & API tự bật prompt caching. Phần prompt cố định (system prompt, CLAUDE.md, tài liệu tham chiếu) nếu lặp lại sẽ được lưu tạm, lần sau chỉ tốn 10% giá thường.

Bạn (người dùng) cần làm gì?

Giữ phần "tĩnh" (tài liệu, hướng dẫn) ở đầu prompt.
Giữ phần "động" (câu hỏi mới) ở cuối.
Không đổi thứ tự file đính kèm giữa các lượt.

Tiết kiệm thực tế

Cache hit: –90% giá input.
Gộp nhiều câu hỏi liên quan trong cùng phiên để tận dụng cache.
Tránh thói quen "mở chat, hỏi 1 câu, đóng chat" cho cùng tài liệu.

Phần 4

Kịch bản
thực tế

Áp dụng cho hai đầu việc điển hình.

Kịch bản · Nghiệp vụ Claude.ai

Viết báo cáo tuần cho sếp

❌ Cách tốn token

Mở chat cũ "Nháp báo cáo", upload lại file số liệu tuần này, gõ: "viết báo cáo tuần giúp tôi". Xem Claude trả lời 1000 chữ → bảo "ngắn hơn" → "thêm bảng" → "bỏ phần kết" → qua lại 8 lượt.

✓ Cách gọn token

Bước 1. Tạo Project "Báo cáo tuần" — upload template + file glossary 1 lần duy nhất.

Bước 2. Mỗi tuần tạo chat mới, dán số liệu tuần đó (chỉ phần cần), viết prompt:

"Dùng template trong project, viết báo cáo tuần
T16/2026. Tối đa 400 chữ, giọng trang trọng,
có 1 bảng tóm tắt 3 chỉ số KPI. Không mở bài."

→ 1 lượt ra kết quả dùng được, token tiết kiệm 60–80%.

Kịch bản · Kỹ thuật Claude Code

Sửa một bug trong service lớn

❌ Cách tốn token

claude → model Opus → "đây là repo, đây là log 3000 dòng, đọc hết rồi sửa bug authentication." Chạy 10 phút, đã tiêu 80k token trước khi đụng đến dòng code đầu tiên.

✓ Cách gọn token

$ claude
/model sonnet
/clear

Đây là stack trace (15 dòng) + file auth/login.py.
Bug: user đăng nhập đúng pass vẫn báo 401.
Chỉ sửa trong file này, đề xuất fix kèm lý do
trong 1 đoạn, không mở rộng sang file khác.

Chỉ "leo" lên Opus nếu sau 2 lượt vẫn chưa ra. Gõ /cost sau khi xong để xem thực chi.

Phần 5

Checklist
10 điều cần nhớ

In ra dán cạnh màn hình.

Tóm tắt

10 thói quen tốt

Mỗi chủ đề → một chat riêng. Đổi việc thì tạo chat mới / /clear.

Tài liệu lặp lại → để trong Projects / CLAUDE.md / thư mục Cowork.

Prompt theo công thức: Vai trò – Nhiệm vụ – Ràng buộc – Định dạng.

Giới hạn đầu ra: "tối đa N chữ", "chỉ code, không giải thích".

Bắt đầu bằng Sonnet. Chỉ "leo" Opus khi thật sự kẹt.

Dùng Edit trên Claude.ai thay vì chat tiếp khi muốn sửa yêu cầu.

Dán đoạn log cần thiết thôi, không dán cả file.

Claude Code: thuộc /cost, /clear, /compact.

CLAUDE.md < 2.000 token. Chi tiết để ở file phụ.

Tin xấu mà bạn bỏ qua: output đắt gấp 5× input — ép ngắn luôn là cách nhanh nhất tiết kiệm.

☕ Giải lao · 10 phút

Nghỉ ngắn trước khi vào Workshop

Trong lúc giải lao, vui lòng chuẩn bị cho phần thực hành:

Mở Claude.ai hoặc Claude Code trên máy của bạn.
Chia nhóm 2–3 người (ưu tiên ghép 1 dev + 1 non-dev).
Claude Code: gõ /cost — ghi lại con số hiện tại để cuối buổi so sánh.
Claude.ai: mở một chat mới trống để chạy bài tập.
Có câu hỏi "gai" nào sau phần lý thuyết? Hỏi ngay bây giờ.

Sau giải lao: 4 bài tập, tổng ~2 tiếng.

Phần 6 · 120 phút

Workshop
thực hành

4 bài tập theo nhóm + cam kết cá nhân cuối buổi.

Lộ trình workshop

4 bài tập, mỗi bài có debrief

Bài tập	Chủ đề	Thời lượng
Warm-up	Quiz nhanh 5 câu "đúng/sai"	10 phút
#1 Prompt Rescue	Viết lại 4 prompt "tệ" thành prompt tốt	30 phút
#2 Context Detox	Dọn một chat đã phình 80% context	20 phút
☕ Giải lao 10 phút
#3 Model Matching	Ghép 10 tác vụ với Haiku / Sonnet / Opus	20 phút
#4 Token Budget Race	5.000 token để viết 1 báo cáo — thi đua tiết kiệm	25 phút
Cam kết	3 điều mỗi người sẽ làm khác từ ngày mai	10 phút

Warm-up · 5 phút làm bài

Quiz: Đúng hay Sai?

Output token đắt hơn input token.
Chat 30 lượt tốn token bằng 30 chat riêng biệt mỗi chat 1 lượt.
Upload cùng 1 file PDF ở 5 chat khác nhau → file đó được tính tiền 5 lần.
Opus luôn cho kết quả chất lượng hơn Sonnet, nên dùng nó cho mọi việc quan trọng.
Gõ /compact xóa sạch lịch sử chat giống /clear.

Làm cá nhân 3 phút, rồi giơ tay — ai đúng hết đầu tiên được cả đội vỗ tay.

Warm-up · Đáp án

Giải & giải thích ngắn

ĐÚNG — Output token đắt ~5× input. Ép ngắn output luôn hiệu quả.
SAI — Chat 30 lượt đắt hơn nhiều 30 chat riêng, vì mỗi lượt phải đọc lại toàn bộ lịch sử trước đó.
ĐÚNG — Trừ khi dùng Projects (retrieval) hoặc prompt caching. Đây là lý do phải gộp.
SAI — Opus chỉ vượt Sonnet ở task reasoning sâu. Với việc đơn giản, Opus trả lời tương đương nhưng đắt hơn gấp bội.
SAI — /compact tóm tắt lịch sử & giữ điểm chính; /clear xóa sạch.

Bài tập #1 · 30 phút Mọi kênh

Prompt Rescue — cứu 4 prompt "tệ"

Mỗi nhóm nhận 4 prompt tệ ở 4 slide tiếp theo. Nhiệm vụ: viết lại theo công thức 4 phần (Vai trò – Nhiệm vụ – Ràng buộc – Định dạng).

Cách làm

Mỗi prompt làm trong 5 phút.
Chạy cả 2 phiên bản trên Claude, so sánh output.
Ghi lại: độ dài output (số chữ), số lượt phải sửa tiếp.

Tiêu chí chấm

Prompt mới cho ra kết quả dùng được ngay lần đầu.
Output ngắn hơn hoặc đúng độ dài yêu cầu.
Không có thông tin thừa (mở bài, kết luận, disclaimer).

Prompt tệ #1 · Non-dev

Viết email nội bộ

NGUYÊN BẢN

"Giúp tôi viết email thông báo cho team."

Gợi ý rescue

Vai trò: "Bạn là trưởng nhóm Vận hành."
Nhiệm vụ: Thông báo chuyển hệ thống core sang bảo trì cuối tuần.
Ràng buộc: Giọng trang trọng, tiếng Việt, không tiếng Anh thừa.
Định dạng: ≤150 chữ, 3 đoạn, không bullet.

Prompt tệ #2 · Non-dev

Tóm tắt báo cáo

NGUYÊN BẢN

"Đây là báo cáo 40 trang của công ty. Bạn đọc
 rồi tóm tắt giúp tôi xem có gì hay."

Gợi ý rescue

Ai đọc? → "tóm tắt cho Giám đốc bận (không chuyên mảng này)".
Tóm tắt cái gì? → "3 rủi ro lớn nhất + 2 cơ hội + chỉ số KPI thay đổi mạnh".
Độ dài? → "≤200 chữ, bảng 3 cột".
Không cần? → "không cần mở bài, không giới thiệu công ty".

Prompt tệ #3 · Dev

Sửa lỗi code

NGUYÊN BẢN

"Code của tôi bị lỗi, sửa giúp."
(kèm dán nguyên 500 dòng file)

Gợi ý rescue

Chỉ dán function bị lỗi + stack trace (không phải cả file).
Mô tả hành vi mong muốn vs hành vi thực tế.
Giới hạn: "chỉ sửa trong function này, không refactor file khác".
Định dạng: "trả về diff, giải thích trong 2 câu".

Prompt tệ #4 · Hỗn hợp

"Phân tích dữ liệu"

NGUYÊN BẢN

"Đây là file Excel doanh số. Phân tích giúp tôi."

Gợi ý rescue

Phân tích để ra quyết định gì? → "Quyết định có mở thêm kho miền Trung không".
Câu hỏi cụ thể: "doanh số miền Trung 6 tháng, xu hướng, so với miền Bắc".
Ràng buộc: "chỉ dùng dữ liệu trong file, không suy đoán".
Định dạng: "5 bullet + 1 biểu đồ mô tả bằng text".

Bài tập #1 · Debrief

Chia sẻ kết quả & bài học

Chia sẻ trong 5 phút

Mỗi nhóm đọc 1 prompt rescue đẹp nhất.
Output giảm bao nhiêu chữ?
Có cần sửa tiếp lượt 2 không?

Quy luật xuất hiện

Prompt tốt thường dài hơn một chút — nhưng tổng token lại ít hơn vì không phải sửa đi sửa lại.
Ràng buộc định dạng (độ dài, bullet/không bullet) là đòn bẩy mạnh nhất.
"Không cần X" hiệu quả ngang "hãy làm Y".

Bài tập #2 · 20 phút Claude.ai Claude Code

Context Detox — dọn cuộc chat đang phình

Tình huống giả định: bạn đã làm 3 tiếng trong 1 chat, context đã dùng 80%, Claude bắt đầu trả lời chậm và hay nhầm số liệu.

Nội dung chat giả định

Lượt 1–15: thảo luận chiến lược marketing Q2.
Lượt 16–25: viết 3 bản nháp email.
Lượt 26–40: dịch 1 hợp đồng sang tiếng Anh.
Lượt 41–50: nhờ phân tích 1 file Excel doanh số.
Đã upload: 1 PDF brand guideline (30 trang), 1 xlsx doanh số, 1 PDF hợp đồng (20 trang).

Bài tập #2 · Nhiệm vụ

Nếu chỉ được giữ 1 chủ đề, bạn sẽ làm gì?

CÁCH SAI Xóa hết rồi làm lại

Nhiều người sẽ gõ /clear — nhưng mất hết ngữ cảnh Q2 mà nhóm đang cần tiếp tục.

CÁCH ĐÚNG 3 bước detox

Nhờ Claude tóm tắt chỉ phần marketing Q2 trong 300 chữ.
Copy tóm tắt → mở chat/Project mới chỉ riêng Q2.
Đưa vào Project brand guideline (upload 1 lần), bỏ các file không liên quan.

Claude Code: thay bước 1-2 bằng /compact "giữ các quyết định marketing Q2".

Bài tập #2 · Debrief

Khi nào dọn, khi nào giữ?

Dấu hiệu cần dọn ngay

Claude mất 30+ giây mới bắt đầu trả lời.
Trả lời nhầm lẫn thông tin từ chủ đề khác trong chat.
/cost tăng đột biến so với các lượt trước.
Bạn đổi sang chủ đề mới hoàn toàn.

Thói quen đỉnh

Cuối mỗi buổi làm → /compact một lần trước khi tắt máy.
Sáng mở lại → kiểm tra tóm tắt có chính xác không, bổ sung nếu thiếu.
Đừng tiếc context cũ — thông tin quan trọng đã được tóm tắt giữ lại rồi.

☕ Giải lao · 10 phút

Nghỉ giữa workshop

Đứng dậy, đi lại, uống nước. Khi quay lại sẽ có 2 bài tập cuối: phân loại model và cuộc thi "ai tiết kiệm token nhất".

Chuẩn bị: mỗi nhóm cần sẵn 1 laptop, một người ghi điểm.

Bài tập #3 · 20 phút Mọi kênh

Model Matching — ghép tác vụ với model

Cho 10 tác vụ dưới đây. Mỗi nhóm thảo luận 10 phút, gán Haiku, Sonnet, hoặc Opus cho từng tác vụ và giải thích lý do trong 1 câu.

Sửa chính tả 1 đoạn văn 200 chữ
Dịch 1 email 5 câu từ Anh sang Việt
Viết báo cáo tuần 400 chữ theo template
Thiết kế lại kiến trúc microservices cho 1 dự án 20 service
Trích 3 ý chính từ biên bản họp 2 giờ
Phân loại 500 email khách hàng thành 5 nhãn
Viết 1 đoạn code SQL join 3 bảng đơn giản
Debug lỗi race condition trong hệ phân tán
Soạn slide pitch 15 phút cho sản phẩm mới
Đặt tên biến cho 1 function 5 dòng

Bài tập #3 · Đáp án gợi ý

Đáp án và lý do

#	Tác vụ	Model	Lý do
1	Sửa chính tả	Haiku	Rule-based, không cần suy luận
2	Dịch email ngắn	Haiku	Đủ chất lượng, rẻ nhất
3	Báo cáo tuần theo template	Sonnet	Cần tổ chức ý, chọn câu văn tốt
4	Kiến trúc microservices	Opus	Đánh đổi phức tạp, reasoning sâu
5	Trích ý từ biên bản	Haiku	Extraction thuần, task hẹp
6	Phân loại 500 email	Haiku (+ Batch API)	Classification lặp lại; batch = −50%
7	SQL join đơn giản	Sonnet	Code nhưng đơn giản, Sonnet vừa đủ
8	Race condition phân tán	Opus	Bug khó, cần giả thiết nhiều bước
9	Slide pitch 15 phút	Sonnet	Sáng tạo vừa phải, Opus nếu khó
10	Đặt tên biến	Haiku	Task tí hon, đừng lãng phí Opus

Chấm điểm: mỗi câu đúng 1 điểm. Nhóm nào ≥8 điểm được ghi nhận "Model Whisperer".

Bài tập #4 · 25 phút Mọi kênh

Token Budget Race 🏁

Mỗi nhóm có ngân sách 5.000 token (ước lượng ~3.500 chữ input+output). Nhiệm vụ: dùng Claude sản xuất 1 báo cáo 300 chữ về "Tình hình áp dụng AI tại công ty nhỏ & vừa Việt Nam 2026".

Tiêu chí tính điểm

Ra sản phẩm dùng được (có 3 ý chính, 1 ví dụ, độ dài đúng ±10%).
Dư càng nhiều token = càng nhiều điểm. Giải thưởng cho "token miser".
Phạt −500 token mỗi lượt sửa đi sửa lại.
Không được dán Wikipedia hay nội dung ngoài vào prompt.

Bài tập #4 · Chiến thuật gợi ý

Gợi ý để về đích với ít token

Chiến thuật "1 shot"

Dùng Sonnet (không Opus).
Viết prompt duy nhất: Vai trò – Nhiệm vụ – Ràng buộc – Định dạng.
Giới hạn output: "đúng 300 chữ, 3 đoạn, không mở bài".
Kết thúc prompt: "không hỏi ngược lại, làm ngay".

Chiến thuật "2 shot"

Lượt 1: Haiku phác dàn ý 5 bullet.
Lượt 2: Sonnet viết lại dựa trên dàn ý.
Ưu: tách reasoning khỏi writing, Haiku rẻ.
Nhược: mất 2 lượt, dễ "vỡ trận" nếu dàn ý chưa chuẩn.

Sau 20 phút, mỗi nhóm báo cáo: đã tiêu bao nhiêu token, dư bao nhiêu, dùng model nào.

Bài tập #4 · Debrief

Bài học rút ra từ cuộc thi

Các nhóm về đích đầu

Viết prompt dài & chi tiết ngay từ đầu.
Chọn model rẻ nhất đủ dùng.
Không "nói chuyện" với Claude — ra lệnh và kết thúc.
Ép định dạng output chặt.

Các nhóm "cháy ngân sách"

Bắt đầu bằng prompt mơ hồ, phải sửa nhiều lần.
Để Claude viết lan man 600–800 chữ rồi phải nhờ rút gọn.
Dùng Opus cho chắc → đốt token gấp 2–3 lần.
Hỏi Claude "ý kiến" trước khi giao việc chính.

Cam kết cá nhân · 10 phút

3 điều tôi sẽ làm khác từ ngày mai

Mỗi người viết ra giấy 3 câu cụ thể. Không chung chung như "dùng Claude hi��u quả hơn" — phải đo được.

MƠ HỒ Khó đo

"Tôi sẽ dùng Claude thông minh hơn."
"Tôi sẽ tiết kiệm token."
"Tôi sẽ viết prompt tốt."

CỤ THỂ Đo được

"Mỗi sáng thứ 2, gõ /cost để so với
 tuần trước, mục tiêu giảm 20%."

"Dùng Haiku cho mọi việc dịch,
 tóm tắt email — mặc định 2 tuần."

"CLAUDE.md của team rút xuống
 dưới 1500 token trong tuần này."

Chia sẻ & chốt

Cùng nghe nhau cam kết

Lần lượt mỗi người đọc to 1 trong 3 cam kết của mình. Cam kết "cụ thể nhất" được cả phòng vỗ tay.

Theo dõi tuần sau

Tạo nhóm chat nội bộ "Token Miser" để cập nhật /cost hàng tuần.
Sau 2 tuần: họp 30 phút review — ai giảm nhiều nhất chia sẻ mẹo.
Sau 1 tháng: đối chiếu chi phí Claude của phòng với tháng trước.

Phụ lục

Cheat sheet — in ra dán cạnh màn hình

Lệnh Claude Code

/cost          # xem chi phí
/clear         # xoá ngữ cảnh
/compact "…"   # tóm tắt, giữ điểm chính
/model sonnet  # đổi model
/help          # xem tất cả lệnh

Công thức prompt 4P

Persona:      Bạn là …
Purpose:      Nhiệm vụ: …
Parameters:   Ràng buộc: … (ngôn ngữ, phạm vi)
Presentation: Định dạng: ≤N chữ, 3 bullet, …

Quy tắc chọn model

Việc lặp lại, hẹp          → Haiku
Viết lách, code vừa        → Sonnet (mặc định)
Reasoning sâu, refactor lớn → Opus

Dấu hiệu "chat đã phình"

- Phản hồi chậm > 30s
- Claude nhầm số liệu giữa chủ đề
- /cost tăng nhanh theo lượt
→ Dọn ngay: /compact hoặc chat mới

Cảm ơn

Q&A & Cảm ơn

Thử áp dụng 3 cam kết của bạn trong 2 tuần tới, so sánh /cost trước & sau.
Chia sẻ kết quả trong nhóm để cùng cải thiện.

Nguyễn Đăng · minhnd7@tcbs.com.vn

Tối ưu Token khi dùng Claude

Tại sao phải quan tâm đến token?

Sau 3 tiếng, bạn sẽ biết

Token hoạt độngnhư thế nào?

Token là gì?

Quy ước Đơn vị tính phí

Ví dụ nhỏ

Context window — "bộ nhớ làm việc" của Claude

TRƯỚC Chat 30 lượt trong 1 phiên

SAU Tách phiên theo chủ đề

Giá 3 dòng Claude hiện tại Tính trên 1 triệu token

7 thói quenđang "đốt" token

Nhồi mọi việc vào một cuộc chat duy nhất

TRƯỚC Chat "vạn năng"

SAU Mỗi chủ đề, một chat

Upload lại cùng một tài liệu ở nhiều chat

TRƯỚC Dán lại quy trình mỗi lần

SAU Dùng Projects hoặc Memory

Prompt mơ hồ → phải làm đi làm lại nhiều lần

TRƯỚC Câu lệnh quá mở

SAU Prompt đủ ngữ cảnh + ràng buộc

Dùng Opus cho mọi việc "cho chắc"

TRƯỚC "Opus cho yên tâm"

SAU "Right model, right job"

Đẩy cả log / cả thư mục vào context

TRƯỚC "Đọc hết rồi sửa giúp"

SAU Cắt gọn phần cần thiết

Không dùng /clear, /compact, /cost

TRƯỚC Một phiên chạy cả ngày

SAU Ba lệnh cần thuộc lòng

Để Claude trả lời lan man — output mới là khoản đắt

TRƯỚC Không giới hạn đầu ra

SAU Ép format & độ dài

7 mẹoáp dụng ngay

Chọn đúng model cho đúng việc

Công thức prompt 4 phần

Vai trò · Nhiệm vụ · Ràng buộc · Định dạng

KẾT QUẢ Đúng ngay lần đầu

Nút Edit thay vì nhắn câu mới

TRƯỚC Gửi tin nhắn tiếp theo

SAU Nhấn Edit trên câu gốc

Dùng Projects cho tài liệu lặp lại

Khi nào nên tạo Project?

LỢI ÍCH Token tiết kiệm 2 cách

Luồng làm việc chuẩn trên Claude Code

Viết CLAUDE.md ngắn gọn — dưới 2.000 token

TRƯỚC CLAUDE.md 10.000 token

SAU Chỉ 5 nguyên tắc then chốt

Tận dụng Prompt Caching (tự động)

Bạn (người dùng) cần làm gì?

Tiết kiệm thực tế

Kịch bảnthực tế

Viết báo cáo tuần cho sếp

❌ Cách tốn token

✓ Cách gọn token

Sửa một bug trong service lớn

❌ Cách tốn token

✓ Cách gọn token

Checklist10 điều cần nhớ

10 thói quen tốt

Nghỉ ngắn trước khi vào Workshop

Workshopthực hành

4 bài tập, mỗi bài có debrief

Quiz: Đúng hay Sai?

Giải & giải thích ngắn

Prompt Rescue — cứu 4 prompt "tệ"

Cách làm

Tiêu chí chấm

Viết email nội bộ

NGUYÊN BẢN

Gợi ý rescue

Tóm tắt báo cáo

NGUYÊN BẢN

Gợi ý rescue

Sửa lỗi code

NGUYÊN BẢN

Gợi ý rescue

"Phân tích dữ liệu"

NGUYÊN BẢN

Gợi ý rescue

Token hoạt động
như thế nào?

7 thói quen
đang "đốt" token

7 mẹo
áp dụng ngay

Kịch bản
thực tế

Checklist
10 điều cần nhớ

Workshop
thực hành