ChatGPT versus NotebookLM
Có nhiều bác sĩ hỏi mình rằng: “Em có nên dùng ChatGPT để đọc guideline và hỗ trợ quyết định lâm sàng không?”. Mình hay trả lời bằng một giọng nghe hơi nước đôi chút, kiểu là ừ em cứ dùng nhưng nên check nguồn. Mình biết trả lời vậy là hơi chưa nhiệt tình lắm nhưng lý do đằng sau nó nhiều khê quá. Vì đúng là LLM (như GPT-4) quá mạnh trong việc tóm tắt, diễn giải, trả lời câu hỏi – nhưng nếu chỉ thế thì cũng là con dao hai lưỡi. Lý do là vì LLM như GPT-4 hay GPT-5 thường bị "hallucination" – chém gió rất tự tin về những điều không hề tồn tại. Và quan trọng hơn, nó không biết trích nguồn chính xác, nói cách khác, nguồn mà trích thì hên xui. Điều này khiến việc đưa LLM vào y khoa đôi khi trở nên nguy hiểm hơn là giúp ích. Về chuyện này, mình mới viết một bài lấy dẫn chứng từ chính nhóm NC của OpenAI về gốc gác sâu xa của halluciation chính là từ hàm mất mát, một thành phần để huấn luyện transformer của LLM.
Câu hỏi đặt ra bây giờ là làm sao để tránh ảo tưởng khi làm việc với LLM?
Để một LLM nó fit với một mục đích sử dụng hẹp nào đó (specific-task hoặc specific domain), người ta thường nghĩ đến 2 hướng: Fine tuning mô hình hoặc Retrieval-Augmented Generation. Trong đó fine tuning chính là tinh chỉnh lại tham số của mô hình (nhưng chỉ khoảng vài phần trăm số tham số gốc trong mô hình), với các thuật toán LoRA hoặc QLoRA bằng các thư viện Unsloth chẳng hạn. Tuy nhiên, hướng đi này đòi hỏi kĩ thuật cao và không phù hợp với end-users là các y bác sĩ.
Hướng thứ 2 phù hợp hơn đó là kết hợp LLM với Retrieval-Augmented Generation (RAG) – tức là bắt mô hình phải dựa trên một tập tài liệu cụ thể mà người dùng cung cấp, và yêu cầu nó trích dẫn cụ thể đoạn nào trong tài liệu đã dùng để trả lời. Công cụ Google NotebookLM chính là ví dụ điển hình mà theo ý kiến của mình là ok nhất cho tác vụ này.
Nói có sách, mách có chứng, tránh tình trạng chém gió suông thì mình trích dẫn một nghiên cứu vừa đăng bởi nhóm tác giả Nhật Bản đã cho thấy: khi xử lý 100 trường hợp ung thư phổi mô phỏng, NotebookLM (dùng RAG) đạt độ chính xác 86% trong chẩn đoán TNM staging – vượt xa GPT-4 Omni chỉ đạt 39% (có guideline trong prompt) và 25% (nếu không có). Nói cách khác, một công cụ miễn phí từ Google đã đánh bại cả GPT-4 Omni trong một bài test chuyên môn lâm sàng, chỉ nhờ được “cắm sách” và biết trích nguồn.
Lý do khiến mình rất thích nghiên cứu này là vì nó giống như một mô hình mẫu để mọi người học cách dùng LLM cho đúng:
- Các tác giả cung cấp guideline staging ung thư phổi (phiên bản Nhật Bản) cho cả GPT-4 và NotebookLM.
- Sau đó, họ cho hai mô hình đọc mô tả CT của 100 ca bệnh ung thư phổi mô phỏng, rồi yêu cầu trả lời TNM classification.
- Mỗi câu trả lời chỉ được coi là đúng khi cả T, N và M đều đúng hoàn toàn.
Kết quả:
- NotebookLM đạt 86% chính xác tổng thể, trong đó chính xác từng phần là: T (90%), N (99%), M (97%)
- GPT-4 Omni khi có guideline trong prompt vẫn chỉ đạt 39% tổng thể (T: 45%, N: 96%, M: 88%)
- Còn GPT-4 không có tài liệu đi kèm thì chỉ còn 25% tổng thể (T: 40%, N: 91%, M: 64%)
- Quan trọng hơn nữa: NotebookLM trích dẫn chính xác vị trí tài liệu trong 95% trường hợp – điều mà GPT-4 hoàn toàn không làm được.
Nhưng mọi người có thể thắc mắc: Thế thì cụ thể, mình nên dùng NotebookLM như thế nào?
Dễ lắm. Đây là hướng dẫn sử dụng cực nhanh:
1. Vào https[]notebooklm[]google
2. Tạo 1 “notebook” mới
3. Upload tài liệu bạn cần: có thể là PDF hướng dẫn chuyên môn, guideline ACOG/ASRM, phác đồ bệnh viện...
4. Sau khi upload, bạn có thể đặt câu hỏi trong ô chat như:
- “Theo tài liệu này, tiêu chuẩn chẩn đoán viêm vùng chậu là gì?”
*- “Nếu chị em có AMH < 1 thì nên dùng protocol nào theo guideline?”
5. Quan trọng: NotebookLM sẽ trả lời bằng cách trích dẫn đúng đoạn trong tài liệu đã tải lên, và bạn có thể click để kiểm chứng.
Đặc biệt, trong nghiên cứu, các tác giả đã dùng prompt như sau (mọi người có thể copy-paste luôn khi thử nghiệm):
*According to \[file name], identify the TNM classification corresponding to the following CT findings. Note that, for T1 and T2, specify the appropriate subclass (the subclasses for T1 are T1mi, T1a, T1b, T1c; and for T2, T2a and T2b). In addition, the tongue ward refers to a segment of the left upper lobe of the lung. For a primary tumor in the left lung, ‘ipsilateral’ refers to the left side and ‘contralateral’ refers to the right side, whereas for a primary tumor in the right lung, ‘ipsilateral’ refers to the right side and ‘contralateral’ refers to the left side. If a tumor nodule is found in the contralateral lung from the primary lung cancer, it meets the criteria for M1a. If the solid component diameter is less than or equal to 1cm and the overall lesion (ground-glass nodule) diameter is greater than 3 cm, then it meets the criteria for T1a. The right upper lobe, right middle lobe, right lower lobe, left upper lobe, and left lower lobe are distinct from one another.*
Bạn thấy đó, prompt này rất cụ thể, giúp mô hình hiểu đúng định nghĩa và quy tắc staging. Khi bạn viết prompt rõ như vậy, NotebookLM gần như không có chỗ để bịa hoặc hiểu sai. Một điểm quan trọng nữa là: nhóm nghiên cứu mô phỏng rất sát thực tế lâm sàng. Ví dụ một ca:
> “Một tổn thương 2 cm ở thùy dưới trái, xâm lấn phế quản chính nhưng không lan đến carina. Có hạch trung thất bên trái. Có di căn đốt sống cổ.”
NotebookLM trả lời:
- T2a – vì tổn thương >3cm nhưng <5cm, có xâm lấn phế quản chính (theo guideline).
- N2 – vì hạch trung thất bên trái là hạch vùng theo vị trí u ở phổi trái.
- M1b – vì có di căn ngoài phổi duy nhất.
Nói cách khác, nếu bạn đang là một bác sĩ cần sử dụng guideline để quyết định lâm sàng – từ chẩn đoán, staging, chọn thuốc hay protocol – thì NotebookLM chính là công cụ RAG nên dùng. Dễ dùng, không cần lập trình, và đặc biệt an toàn hơn vì bạn biết mô hình đang đọc từ chỗ nào, trang nào, dòng nào.
Tất nhiên, công cụ này chưa thể thay thế con người trong việc suy luận tổng thể, tích hợp lâm sàng và ra quyết định toàn diện. Nhưng với những tình huống cần tra guideline, cần tính chính xác cao trong tiêu chuẩn hóa như:
* Phân loại TNM
* Tiêu chuẩn chẩn đoán theo tiêu chí quốc tế
* Ngưỡng cắt trong hormone, sinh hóa
* Phác đồ can thiệp IVF, protocol kích thích buồng trứng
Thì mình nghĩ NotebookLM sẽ là “đồng đội” cực kỳ hữu ích – miễn là bạn biết cách dùng đúng.
Chúng ta cần cá thể hóa điều trị, nhưng không thể rời xa chứng cứ. Và chứng cứ thì luôn nằm trong các guideline, các tài liệu chuyên môn. Vấn đề là: bạn có công cụ nào giúp truy xuất, kiểm chứng, và sử dụng đúng tài liệu đó không?
Ai đang làm guideline nội viện, ai đang chạy protocol IVF, ai hay phải tra TNM staging… thử dùng thử đi nhé.
Mình đã test và cực kỳ recommend. Mình cũng đem công cụ này giảng dạy về “AI trong học tập và nghiên cứu ngành Y” cho các bạn sinh viên Y5 ở nơi mình đang giảng dạy đó.
Sưu Tầm