LLM (Large Language Model)
Định nghĩa
LLM, viết tắt của Large Language Model, là một lớp mô hình thống kê trong lĩnh vực trí tuệ nhân tạo, đặc biệt thuộc phân nhánh xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), được thiết kế nhằm nắm bắt các quy luật ngữ pháp, ngữ nghĩa, pragmatics và tri thức thế giới thông qua việc học từ khối lượng dữ liệu văn bản phi cấu trúc cực kỳ đồ sộ. Thuật ngữ này không chỉ phản ánh kích thước về mặt tham số (thường đạt hàng tỷ đến hàng trăm tỷ trọng số), mà còn hàm ý một sự chuyển dịch mang tính bước ngoặt trong cách tiếp cận: từ các hệ thống dựa trên quy tắc hoặc mô hình thống kê nhỏ, sang các mô hình end-to-end học biểu diễn phân bố xác suất trên chuỗi ký tự hoặc từ vựng, cho phép thực hiện nhiều tác vụ ngôn ngữ khác nhau mà không cần lập trình tường minh.
Nguyên gốc từ vựng của thuật ngữ bắt nguồn từ tiếng Anh, trong đó "large" nhấn mạnh vào độ phức tạp tính toán và dung lượng bộ nhớ cần thiết; "language" xác định phạm vi ứng dụng chủ đạo — ngôn ngữ tự nhiên dưới dạng văn bản và đôi khi cả lời nói đã được chuyển đổi; còn "model" chỉ một cấu trúc toán học được xây dựng để xấp xỉ hàm ánh xạ giữa đầu vào (ví dụ: một dãy từ) và đầu ra (ví dụ: từ tiếp theo, câu trả lời, tóm tắt). Không nên nhầm lẫn LLM với các hệ thống chuyên biệt như bộ phân tích cú pháp (parser), bộ nhận diện thực thể có tên (NER) hay mô hình dịch máy cổ điển — bởi LLM là một mô hình đa nhiệm tổng quát, có khả năng thích nghi linh hoạt với nhiều yêu cầu thông qua kỹ thuật prompt engineering hoặc fine-tuning.
Một điểm then chốt trong định nghĩa hiện đại là khái niệm tổng quát hóa mở rộng (scaling law): hiệu năng của LLM không tăng tuyến tính mà thường tuân theo các mối quan hệ lũy thừa với ba yếu tố chính — số lượng tham số, dung lượng dữ liệu huấn luyện và ngân sách tính toán. Điều này dẫn đến việc các mô hình ngày càng lớn không chỉ cải thiện độ chính xác trên các tập kiểm tra tiêu chuẩn, mà còn bộc lộ những khả năng mới như suy luận bậc cao, học ít mẫu (few-shot learning), và thậm chí biểu hiện hành vi giống như lập luận chuỗi (chain-of-thought reasoning), mặc dù bản chất vẫn là sự ngoại suy thống kê chứ không phải tư duy trừu tượng theo nghĩa sinh học.
Lịch sử và nguồn gốc
Nền tảng lý thuyết của LLM bắt đầu từ những năm 1950 với các mô hình xác suất đơn giản như mô hình Markov bậc nhất, sau đó phát triển thành mô hình n-gram trong thập niên 1980–1990, nơi xác suất xuất hiện của một từ được ước lượng dựa trên n−1 từ đứng trước nó. Tuy nhiên, những mô hình này bị giới hạn nghiêm trọng bởi khả năng bao quát ngữ cảnh ngắn và thiếu biểu diễn ngữ nghĩa sâu. Bước đột phá đầu tiên đến từ sự ra đời của word embedding như Word2Vec (2013) và GloVe (2014), cho phép biểu diễn từ dưới dạng vector trong không gian liên tục, nơi khoảng cách hình học phản ánh mức độ tương đồng ngữ nghĩa. Đây là tiền đề thiết yếu để chuyển sang các kiến trúc học sâu hơn.
Các mốc quan trọng tiếp theo bao gồm mô hình RNN (Recurrent Neural Network) và LSTM (Long Short-Term Memory), vốn từng là tiêu chuẩn vàng trong NLP cho đến giữa thập niên 2010, nhưng gặp khó khăn với việc duy trì ngữ cảnh dài do hiện tượng vanishing gradient. Năm 2017, bài báo mang tính cách mạng "Attention Is All You Need" do Vaswani và cộng sự công bố đã đề xuất kiến trúc Transformer, loại bỏ hoàn toàn cơ chế tuần tự và thay vào đó sử dụng cơ chế self-attention để tính toán mức độ liên quan giữa mọi cặp từ trong một chuỗi — bất kể khoảng cách vị trí. Chính kiến trúc này, nhờ khả năng song song hóa cao và biểu diễn ngữ cảnh toàn cục, đã trở thành nền tảng không thể thiếu cho mọi LLM hiện đại.
Mốc khởi đầu thực sự của kỷ nguyên LLM được đánh dấu bởi mô hình GPT (Generative Pre-trained Transformer) phiên bản đầu tiên do OpenAI công bố năm 2018, với 117 triệu tham số. Sau đó, GPT-2 (2019, 1,5 tỷ tham số) và đặc biệt là GPT-3 (2020, 175 tỷ tham số) đã chứng minh rõ ràng sức mạnh của việc mở rộng quy mô: chỉ với kỹ thuật prompting đơn giản, GPT-3 có thể thực hiện hàng chục tác vụ — từ viết thơ, lập trình, giải toán logic đến dịch thuật — mà không cần điều chỉnh lại trọng số (zero-shot). Cùng thời điểm, Google phát triển mô hình BERT (Bidirectional Encoder Representations from Transformers, 2018), nhấn mạnh vào việc hiểu ngữ cảnh hai chiều trong giai đoạn pre-training, mở đường cho các mô hình mã hóa mạnh mẽ dùng trong tìm kiếm và phân loại. Từ năm 2022 trở đi, làn sóng phát triển LLM bùng nổ toàn cầu với sự tham gia của hàng chục tổ chức nghiên cứu và doanh nghiệp, từ Meta (Llama), Google (PaLM, Gemini), Microsoft (Phi, Orca), đến các phòng thí nghiệm Việt Nam như VinAI Research (PhoBERT, VINALLM), đánh dấu sự chuyển mình từ nghiên cứu học thuật sang hạ tầng công nghệ chiến lược quốc gia.
Đặc điểm và tính chất
LLM sở hữu một tập hợp đặc điểm kỹ thuật và hành vi nổi bật, phân biệt chúng rõ ràng với các mô hình học máy truyền thống. Trước hết, về mặt kiến trúc, tất cả LLM hiện đại đều dựa trên nền tảng Transformer, bao gồm hai thành phần chính: encoder (dùng trong BERT, RoBERTa), decoder (dùng trong GPT, Llama), hoặc cả hai (dạng encoder-decoder như T5, BART). Mỗi lớp trong mạng chứa các khối attention multi-head, layer normalization, và mạng neural feed-forward, tạo nên một cấu trúc phân cấp sâu với khả năng học biểu diễn ở nhiều mức độ trừu tượng.
- Kích thước tham số khổng lồ: Các LLM thương mại hiện nay thường có từ 7 tỷ đến hơn 1.000 tỷ tham số. Số lượng tham số không chỉ quyết định dung lượng bộ nhớ cần thiết (có thể lên tới hàng chục terabyte khi lưu trữ đầy đủ), mà còn ảnh hưởng trực tiếp đến khả năng lưu giữ tri thức, độ chính xác trong suy luận và mức độ ổn định khi sinh văn bản.
- Dữ liệu huấn luyện đa dạng và phi cấu trúc: LLM được huấn luyện trên kho dữ liệu văn bản mở rộng, bao gồm sách, bài báo khoa học, mã nguồn phần mềm, trang web, diễn đàn thảo luận và tài liệu đa ngôn ngữ. Dữ liệu này không được gắn nhãn theo kiểu giám sát truyền thống, mà chủ yếu sử dụng kỹ thuật học không giám sát (unsupervised learning) hoặc học bán giám sát (semi-supervised learning) như masked language modeling (BERT) hoặc causal language modeling (GPT).
- Tính chất phi tuyến và không thể giải thích: Mặc dù có cấu trúc rõ ràng, hành vi của LLM là kết quả của hàng tỷ phép toán phi tuyến chồng chéo. Hiện chưa tồn tại phương pháp nào có thể trích xuất một cách đầy đủ và đáng tin cậy “lý do” vì sao mô hình đưa ra một câu trả lời cụ thể — đây là vấn đề cốt lõi trong lĩnh vực explainable AI (XAI). Các kỹ thuật như attention visualization hay probing chỉ cung cấp manh mối gián tiếp, chứ không phải bằng chứng nguyên nhân.
Một đặc điểm quan trọng khác là tính trạng thái tĩnh: LLM không có bộ nhớ ngoài (external memory) hay khả năng cập nhật tri thức thời gian thực. Toàn bộ tri thức của nó được “đóng băng” tại thời điểm huấn luyện cuối cùng. Do đó, mô hình không biết về các sự kiện xảy ra sau thời điểm đó, trừ khi được kết nối với hệ thống tìm kiếm bên ngoài (RAG – Retrieval-Augmented Generation) hoặc tái huấn luyện (retraining). Ngoài ra, LLM cũng thể hiện tính bất định có kiểm soát: cùng một prompt có thể sinh ra nhiều đầu ra khác nhau tùy vào tham số nhiệt độ (temperature), top-k sampling hoặc nucleus sampling — đây vừa là điểm mạnh (tạo sự đa dạng), vừa là điểm yếu (giảm tính nhất quán).
Phân loại
Theo kiến trúc và chức năng
Căn cứ vào vai trò của các thành phần Transformer, LLM được phân thành ba nhóm chính. Nhóm thứ nhất là mô hình chỉ dùng decoder (decoder-only), như họ GPT, Llama, Mistral. Chúng được huấn luyện để dự đoán từ tiếp theo trong chuỗi, do đó thiên về sinh văn bản, viết mã, sáng tạo nội dung. Nhóm thứ hai là mô hình chỉ dùng encoder (encoder-only), tiêu biểu là BERT, RoBERTa, PhoBERT — được tối ưu cho các tác vụ phân loại, trích xuất thông tin, tìm kiếm ngữ nghĩa, nhờ khả năng hiểu sâu ngữ cảnh hai chiều. Nhóm thứ ba là mô hình encoder-decoder, như T5, BART, FLAN-T5, kết hợp cả hai khả năng: mã hóa đầu vào và sinh đầu ra, rất phù hợp với dịch máy, tóm tắt văn bản và chuyển đổi cấu trúc (text-to-SQL, text-to-code).
Theo mục đích triển khai
Về mặt ứng dụng, LLM còn được phân loại theo cách thức triển khai và quyền sở hữu. Mô hình đóng (closed-weight) như Gemini, Claude, GPT-4 có trọng số không được công bố công khai, chỉ cung cấp qua API với các điều khoản sử dụng nghiêm ngặt. Ngược lại, mô hình mở (open-weight) như Llama 3, Phi-3, Qwen, VINALLM cho phép người dùng tải xuống, chạy cục bộ, điều chỉnh và phân phối lại — điều kiện tiên quyết để phát triển hệ sinh thái độc lập và đảm bảo chủ quyền dữ liệu. Một phân loại nữa là mô hình hướng nhiệm vụ (task-specific LLM), được fine-tune từ mô hình nền để chuyên biệt hóa cho y tế (Med-PaLM), pháp lý (Legal-BERT), giáo dục (EduLLM) hoặc kỹ thuật (CodeLlama).
Cơ chế hoạt động
Cơ chế hoạt động của LLM dựa trên chuỗi các bước toán học được thực hiện trên dữ liệu đầu vào dưới dạng chuỗi token. Quá trình bắt đầu bằng việc tokenization: văn bản được chia thành các đơn vị nhỏ (token) — có thể là từ, phần từ hoặc ký tự con — thông qua bộ tokenizer như Byte-Pair Encoding (BPE) hoặc SentencePiece. Mỗi token được ánh xạ thành một vector nhúng (embedding vector) có chiều cố định, sau đó được bổ sung thêm vector vị trí (positional encoding) để mô hình nhận biết thứ tự tuần tự.
Tiếp theo, chuỗi vector này đi qua nhiều lớp Transformer. Trong mỗi lớp, cơ chế self-attention tính toán ma trận attention: với mỗi token, mô hình xác định mức độ “chú ý” đến tất cả các token khác trong cùng chuỗi thông qua tích vô hướng giữa các vector query, key và value. Kết quả là một biểu diễn mới, trong đó mỗi token đã được làm giàu bởi ngữ cảnh toàn cục. Sau đó, biểu diễn này đi qua mạng neural feed-forward hai lớp với hàm kích hoạt GELU, rồi được chuẩn hóa và kết hợp với đầu vào ban đầu (residual connection). Quá trình này lặp lại qua hàng chục lớp, tạo nên một mạng phân cấp sâu, nơi các lớp thấp học đặc trưng bề mặt (cú pháp, từ vựng), còn các lớp cao học đặc trưng trừu tượng (ý định, lập luận, tri thức thế giới).
Giai đoạn cuối cùng là head output: đầu ra của lớp cuối cùng được chiếu vào không gian từ vựng (vocabulary space) thông qua một lớp linear, sau đó áp dụng hàm softmax để sinh phân bố xác suất trên toàn bộ từ vựng. Khi sinh văn bản, mô hình chọn token có xác suất cao nhất (greedy decoding) hoặc lấy mẫu ngẫu nhiên theo phân bố (sampling decoding), rồi lặp lại quá trình với chuỗi mở rộng — một vòng lặp gọi là autoregressive generation.
Ứng dụng thực tế
LLM đã xâm nhập sâu vào nhiều lĩnh vực công nghiệp và đời sống. Trong giáo dục, chúng hỗ trợ cá nhân hóa học tập thông qua trợ lý dạy học thông minh, phân tích bài làm học sinh, sinh đề kiểm tra theo chuẩn năng lực. Trong y tế, các LLM được tích hợp vào hệ thống hồ sơ bệnh án điện tử để tóm tắt ghi chú lâm sàng, gợi ý chẩn đoán dựa trên triệu chứng, hoặc hỗ trợ viết báo cáo xét nghiệm — tuy nhiên luôn yêu cầu kiểm định lâm sàng nghiêm ngặt trước khi áp dụng lâm sàng thực tế.
Trong lĩnh vực kỹ thuật phần mềm, công cụ như GitHub Copilot (dựa trên Codex) giúp lập trình viên viết mã nhanh hơn 30–50%, phát hiện lỗi tiềm ẩn và dịch thuật giữa các ngôn ngữ lập trình. Trong quản trị doanh nghiệp, LLM được tích hợp vào hệ thống CRM để phân tích cảm xúc khách hàng từ email, chat, cuộc gọi (sau khi chuyển giọng nói thành văn bản), từ đó đề xuất chiến lược chăm sóc phù hợp. Tại Việt Nam, các ứng dụng như trợ lý hành chính số cho cơ quan nhà nước, hệ thống hỏi đáp pháp luật tự động, hoặc nền tảng hỗ trợ viết báo cáo khoa học bằng tiếng Việt đang được triển khai thử nghiệm tại nhiều bộ, ngành.
Ưu điểm và hạn chế
Ưu điểm nổi bật nhất của LLM là khả năng tổng quát hóa đa nhiệm: một mô hình duy nhất có thể thay thế hàng chục mô hình chuyên biệt trước đây, giảm chi phí phát triển và vận hành. Chúng cũng cho phép tương tác bằng ngôn ngữ tự nhiên — giao diện thân thiện nhất với con người — thay vì yêu cầu kiến thức kỹ thuật để viết truy vấn SQL hay mã Python. Về mặt hiệu quả, LLM giúp tự động hóa các tác vụ tri thức lặp đi lặp lại như soạn thảo thư, tổng hợp báo cáo, dịch thuật sơ bộ, từ đó giải phóng thời gian cho lao động sáng tạo và ra quyết định chiến lược.
Tuy nhiên, hạn chế cũng rất rõ ràng. Thứ nhất là vấn đề sai lệch và sai sự thật (hallucination): LLM có xu hướng tạo ra thông tin trông hợp lý nhưng không đúng với thực tế, đặc biệt khi thiếu bằng chứng trong dữ liệu huấn luyện. Thứ hai là rủi ro đạo đức và xã hội: mô hình có thể khuếch đại định kiến giới, sắc tộc, vùng miền nếu dữ liệu huấn luyện chứa những thành kiến đó; đồng thời dễ bị khai thác để tạo nội dung độc hại, tin giả hoặc lừa đảo. Thứ ba là chi phí tính toán và môi trường: huấn luyện một LLM cỡ 100 tỷ tham số có thể tiêu tốn hàng triệu kWh điện, tương đương lượng khí thải CO₂ của hàng chục hộ gia đình trong một năm. Cuối cùng là khó kiểm soát và kiểm định: do bản chất thống kê và đen-box, việc đảm bảo tính an toàn, độ tin cậy và tuân thủ quy định pháp luật đối với LLM vẫn là thách thức chưa có lời giải trọn vẹn.
Lưu ý quan trọng
Khi triển khai LLM trong môi trường sản xuất, cần tuân thủ nghiêm ngặt các nguyên tắc về bảo mật dữ liệu: không đưa thông tin nhạy cảm (mã số cá nhân, thông tin y tế, bí mật kinh doanh) vào prompt nếu sử dụng mô hình đám mây chưa được kiểm định độc lập. Đối với các ứng dụng yêu cầu độ chính xác cao như y tế, tài chính hoặc pháp lý, LLM chỉ nên đóng vai trò hỗ trợ — mọi đầu ra đều phải được chuyên gia con người kiểm tra và xác nhận trước khi ra quyết định.
Một sai lầm phổ biến là kỳ vọng LLM có khả năng “hiểu” như con người: thực tế, chúng không có ý thức, không có niềm tin, không có mục đích — chỉ là công cụ thống kê cực kỳ tinh vi. Việc gán nhân cách hóa cho LLM có thể dẫn đến đánh giá sai mức độ tin cậy và rủi ro. Ngoài ra, cần lưu ý rằng hiệu năng của LLM phụ thuộc mạnh vào chất lượng prompt: một prompt mơ hồ, thiếu bối cảnh hoặc mâu thuẫn sẽ sinh ra kết quả kém. Vì vậy, kỹ năng viết prompt (prompt engineering) là năng lực thiết yếu trong kỷ nguyên LLM, đòi hỏi cả kiến thức chuyên môn và tư duy ngôn ngữ học.
