Share chat GPT

1. Language model là gì:

Mô hình ngôn ngữ là một loại mô hình máy học để số hóa ngôn ngữ theo một mục tiêu cụ thể. Ví dụ trong bài toán encode language, mô hình học máy sẽ cố gắng mã hóa các từ sao cho các từ gần nghĩa sẽ có vector encoding gần nhau.

Ví dụ trong bài toán dịch máy: mô hình sẽ học cách ánh sạ từ ngôn ngữ gốc sang ngôn ngữ đích.

2. The rise of Large Language model (LLM)

Mô hình ngôn ngữ lớn (LLM) là một loại mô hình ngôn ngữ sử dụng deep learning để xử lý ngôn ngữ tự nhiên với độ chính xác cao. Các LLM được phát triển từ các mô hình ngôn ngữ trước đó và sử dụng các kiến trúc phức tạp để hiểu và tạo ra ngôn ngữ tự nhiên.

Từ sự phát triển của mô hình ngôn ngữ, đã nảy sinh ra các mô hình ngôn ngữ lớn (LLM) với khả năng xử lý ngôn ngữ tự nhiên cực kỳ mạnh mẽ. Hiện nay, các LLM đang dẫn đầu với các mô hình nổi tiếng như GPT-3, BERT, và Transformer.

3. Lịch sử phát triển của LLM:

GPT-3:

2020
175 tỷ

GPT-3.5:

01-2022
175 tỷ
Loại bỏ các câu trả lời độc hại
Được train trên hàng chục Terabytes text data từ nhiều nguồn

Bert:

2018
340 triệu 15843151.pdf (stanford.edu)

Transformer-XL-Large:

2019
800 triệu

GPT:

2018
117 triệu

GPT-2:

2019
1.5 tỷ

XLNet Large:

2019
340 triệu

Megatron turing:

530 tỷ params
Chưa public, paper release 2020

Data training:

BERT sử dụng phương pháp "Masked Language Model" (MLM). Xóa ngẫu nhiên các từ/token sau đó để mô hình dự đoán từ bị che đi

Ví dụ:

Câu ban đầu: "I need to buy groceries today"
Câu đã được đánh dấu: "I need to [MASK] groceries today"
Kết quả mong đợi từ mô hình: "buy"

GPT: autoregressive language model

Ví dụ:

Chunk: "There are many different types of flowers. Some are small and delicate, while others are big and bold. They come in a wide range of colors and fragrances, and are often used to express feelings of love, gratitude, and sympathy." Tiếp theo: "One of the most popular flowers is the <|endoftext|>."
Input của model: "One of the most popular flowers is the <|endoftext|>.”
Kết quả mong đợi: “rose”

Reinforcement Learning from Human Feedback

GPT-training strategy

Step 1:

Thu thập dữ liệu: chọn danh sách các câu hỏi và labeling team sẽ gán câu trả lời trên một tập dữ liệu nhỏ
Fine tuning mô hình
Kết quả sau bước này là SFT (Supervised Fine-Tuning model) model, nhưng câu trả lời của SFT model còn thô sơ

Step 2:

Chọn danh sách câu hỏi và SFT model sinh ra nhiều câu trả lời.
Nhãn hiệu đính sẽ đánh giá xếp hạng các câu trả lời từ tốt nhất đến tệ nhất. Kết quả là tập dữ liệu được nhãn hiệu đính đánh giá.
Dữ liệu mới này được sử dụng để huấn luyện một model mới gọi là reward model (RM).

Step 3:

Sử dụng Reinforcement Learning để tối ưu hóa reward model thông qua PPO, fine-tuning SFT policy.
Kết quả cuối cùng là PPO model.

? cơ chế gì cho phép train thêm dữ liệu ?

? cách chuẩn bị dữ liệu như thế nào ?

Tiêu chí đánh giá mô hình:

Helpfulness: đánh giá khả năng của mô hình trong việc làm theo hướng dẫn của người dùng và suy luận từ hướng dẫn.

Truthfulness: Đánh giá khả năng của mô hình trong việc không bị sai lệch (hallucinations) và tạo ra thông tin không chính xác trong các nhiệm vụ thuộc lĩnh vực đặc thù (closed-domain). Mô hình được đánh giá trên tập dữ liệu TruthfulQA.

Harmlessness: Kiểm tra xem mô hình có chửi người dùng không.

Sử dụng dataset: RealToxicityPrompts và CrowS-Pairs.
Sử dụng người thật đánh giá

zero-shot performance: trong các nhiệm vụ xử lý ngôn ngữ tự nhiên truyền thống như trả lời câu hỏi, đọc hiểu và tóm tắt. Sử dụng các dataset thông dụng trong NLP

Limitations:

Lack of control study: A proper (yet, expensive) control study would consist in investing the exact same amount of labeler-hours as those used to train the reward model into creating a larger curated SFT dataset with high-quality demonstration data.

Thiếu ground-truth để so sánh với dữ liệu: không có ground-truth để so sánh với dữ liệu cho phép so sánh mô hình.

Sự không đồng nhất của sở thích con người: Phương pháp RLHF xem sở thích con người như đồng nhất.

Kiểm tra tính ổn định của mô hình phần thưởng (RM) với các đề bài: Chưa có thí nghiệm nghiên cứu sự nhạy cảm của mô hình phần thưởng đối với sự thay đổi của đề bài input. Nếu hai đề bài có cú pháp khác nhau nhưng có nghĩa tương đương, liệu RM có thể hiển thị sự khác biệt đáng kể trong việc xếp hạng đầu ra của mô hình? Tóm lại, chất lượng của đề bài đối với RM quan trọng đến mức nào.