Kho lưu trữ AI-ready: Chuẩn bị dữ liệu cho Kỷ nguyên AI

Lê Nguyễn Tường Vân · 13 tháng 2, 2026
Kho lưu trữ AI-ready: Chuẩn bị dữ liệu cho Kỷ nguyên AI

Trong bối cảnh Trí tuệ nhân tạo (AI) ngày càng được nhắc đến trong lĩnh vực lưu trữ, câu hỏi đặt ra không còn là “có nên dùng AI hay không?” mà là “chuẩn bị dữ liệu lưu trữ như thế nào để AI không làm tổn hại đến các nguyên tắc nền tảng của ngành lưu trữ?”

 

Tháng 2 năm 2026, Prof. Giovanni Colavizza và Prof. Lise Jaillant đã công bố tài liệu AI Preparedness Guidelines for Archivists, do Archives & Records Association (UK & Ireland) phát hành dưới giấy phép CC BY. Trong tài liệu này, các tác giả nhấn mạnh một điểm cốt lõi: AI chỉ thực sự hữu ích khi kho tư liệu được chuẩn bị kỹ lưỡng về dữ liệu, metadata, cấu trúc và cơ chế đánh giá.

 

Dưới đây là những nội dung chính trong bộ hướng dẫn mà cộng đồng lưu trữ tại Việt Nam có thể quan tâm.

 

AI-ready là gì?

Tài liệu phân biệt hai nhóm mô hình AI chính thường được áp dụng trong lưu trữ:

1. Task-specific AI

Đây là các mô hình được huấn luyện để thực hiện một tác vụ cụ thể, chẳng hạn như:

  • Phân loại loại hình tài liệu
  • Trích xuất tên người, địa danh, ngày tháng
  • Phát hiện hoặc gắn cờ nội dung nhạy cảm

2. Generative AI

Đây là các mô hình sinh ngôn ngữ, có khả năng:

  • Tóm tắt hồ sơ
  • Gợi ý mô tả hoặc từ khóa
  • Trả lời câu hỏi của người dùng dựa trên dữ liệu lưu trữ

Một phương pháp quan trọng được nhấn mạnh là RAG (Retrieval-Augmented Generation). Theo đó, hệ thống AI trước tiên truy xuất dữ liệu từ kho tư liệu đã được chuẩn bị tốt, sau đó mới sinh nội dung dựa trên phần dữ liệu đã truy xuất. Cách tiếp cận này giúp giảm thiểu hiện tượng “hallucination” (AI tạo ra thông tin không có trong nguồn) và tăng độ chính xác của kết quả.

 

Bốn trụ cột để kho lưu trữ sẵn sàng cho AI

1. Tính đầy đủ và dữ liệu bị loại bỏ

Không nhất thiết phải số hóa 100% tư liệu mới có thể ứng dụng AI. Tuy nhiên, cần:

  • Ghi rõ kho dữ liệu là đầy đủ hay chỉ là một phần
  • Giải thích lý do thiếu hụt (chưa số hóa, hạn chế pháp lý, mất mát vật lý…)
  • Ghi chú những thiên lệch đã biết (ví dụ: tập trung vào một nhóm xã hội, một thời kỳ nhất định…)

Điều này đặc biệt quan trọng đối với Generative AI, bởi AI chỉ có thể phản ánh những gì hiện diện trong dữ liệu.

2. Metadata và quyền truy cập

AI không thể hoạt động hiệu quả nếu metadata thiếu sót hoặc rời rạc.

Cần đảm bảo:

  • Có metadata tối thiểu ở cấp độ từng đơn vị tài liệu
  • Bảo toàn và thể hiện rõ provenance (nguồn gốc xuất xứ) và cấu trúc series
  • Ghi rõ điều kiện truy cập (mở, hạn chế, đóng)
  • Xác định ngôn ngữ của tài liệu và metadata

Đặc biệt, tài liệu nhấn mạnh vai trò của metadata dạng tường thuật (narrative metadata) như ghi chú giám tuyển, bối cảnh lịch sử, phân tích phê bình. Những yếu tố này giúp AI hiểu được chiều sâu văn hóa, bối cảnh quyền lực và các lớp nghĩa trong tư liệu.

3. Định dạng và cấu trúc dữ liệu

Việc chuẩn bị dữ liệu cho AI không đồng nghĩa với việc “làm sạch” theo cách phá vỡ cấu trúc lưu trữ gốc.

Cần lưu ý:

  • Giữ nguyên file và cấu trúc gốc
  • Tạo bản sao (derivative) chuẩn hóa phục vụ xử lý AI
  • Chuẩn hóa định dạng (ví dụ: UTF-8 text, XML cho văn bản; TIFF/JPEG cho hình ảnh)
  • Đặt tên file và cấu trúc thư mục rõ ràng, có thể truy xuất thông qua API

Điều này đặc biệt quan trọng trong các hệ thống sử dụng IIIF, OCR, hoặc cơ sở dữ liệu kết hợp vector search.

4. Đánh giá theo mục tiêu cụ thể

Mỗi ứng dụng AI cần có bộ chỉ số (metric) riêng, thay vì sử dụng các tiêu chí chung chung. Ví dụ:

  • Tỷ lệ mô tả do AI đề xuất được chấp nhận với chỉnh sửa nhẹ
  • Thời gian tiết kiệm cho mỗi hồ sơ
  • Tỷ lệ false positive khi phát hiện nội dung nhạy cảm
  • Mức độ hài lòng của người dùng với hệ thống RAG

Việc xác định rõ cách đánh giá từ đầu giúp đảm bảo AI mang lại giá trị thực tiễn thay vì chỉ là thử nghiệm công nghệ.

 

Checklist trước khi triển khai AI

Trước khi bắt đầu một dự án AI, cần có câu trả lời “có” cho phần lớn các câu hỏi sau:

  • Có bài toán (use case) rõ ràng
  • Hiểu rõ mức độ đầy đủ của dữ liệu
  • Có metadata tối thiểu và thông tin provenance
  • Có bản derivative chuẩn hóa phục vụ AI
  • Có tiêu chí đánh giá cụ thể
  • Có cơ chế human review (AI chỉ hỗ trợ, không thay thế chuyên gia)

Điều quan trọng nhất không phải là triển khai thêm công cụ mới, mà là đầu tư vào sự sẵn sàng của dữ liệu cho AI (AI data preparedness).