"Open by Default" trong kỷ nguyên AI: Làm thế nào để bảo vệ tư liệu?

Lê Nguyễn Tường Vân · 14 tháng 2, 2026
"Open by Default" trong kỷ nguyên AI: Làm thế nào để bảo vệ tư liệu?

Trong bài viết “The Cost of Open by Default in the AI Era: Can We Protect Donor Materials from Generative AI? (30/01/2026), Rosalyn Metz, Chief Technology Officer for Libraries and Museum at Emory University, đã đặt ra một câu hỏi mang tính nền tảng cho các tổ chức lưu trữ và di sản văn hóa: Khi AI tạo sinh có thể thu thập, tổng hợp và thương mại hóa dữ liệu ở quy mô chưa từng có, liệu mô hình “open by default” (mở mặc định) có còn phù hợp?

 

Bài viết của Metz không chỉ là một sự phản tư về mặt công nghệ, mà là một cảnh báo về sự thay đổi căn bản trong hệ sinh thái tri thức số.

 

Bốn áp lực đang tác động đến mô hình “mở mặc định”

Theo Metz, các tổ chức lưu trữ hiện đang đối mặt với bốn áp lực lớn:

1. “Thu hoạch” khung tri thức

Các công ty AI không chỉ thu thập nội dung, mà còn khai thác các hệ thống phân loại, chú giải và cấu trúc tri thức được xây dựng qua nhiều thập kỷ. Như Metz viết, họ không chỉ “cào nội dung” mà còn tận dụng với mục đích thu lợi nhuận những khung tri thức để miêu tả, lý giải và kết nối nội dung mà các tổ chức, dự án di sản đã kiến tạo trong quá trình trưng bày nội dung (“the frameworks we have built to describe, relate, and explain the content”) .

2. “Thuế hạ tầng”

Bot thu thập dữ liệu có thể gây quá tải hệ thống, làm gián đoạn dịch vụ cho người dùng thật. Metz mô tả điều này như một dạng tấn công, khi bot tiêu tốn tài nguyên hệ thống đến mức người dùng thật không thể truy cập được hoặc truy cập rất chậm (“denial-of-service attack against our human users”). Các thư viện thực chất đang phải trả một loại thuế hạ tầng (“infrastructure tax”) để duy trì truy cập mở trước những cuộc tấn công này.

3. Thu hoạch bộ sưu tập vật lý

Việc tái khởi động các dự án số hóa quy mô lớn như Google Books đặt ra vấn đề: các công ty không chỉ sử dụng dữ liệu một lần. Họ quay lại mỗi khi xây dựng mô hình mới, trong khi các thư viện chỉ nhận được khoản thanh toán một lần.

4. Sự mất niềm tin

Điểm Metz nhấn mạnh nhất là niềm tin đang vơi dần giữa nhà hiến tặng và tổ chức lưu trữ. Khi người hiến tặng trao lại toàn bộ tác phẩm hay bộ sưu tập, họ kỳ vọng một sự bảo vệ tư liệu. Nhưng hiện nay, như Metz quan sát, không một tổ chức nào có thể đưa ra một đảm bảo tuyệt đối rằng tư liệu được đóng góp sẽ không bị AI thu thập và thương mại hóa.

 

Rào cản hợp đồng và thách thức kỹ thuật

Metz phân tích các điều khoản hợp đồng mới yêu cầu tổ chức phải ngăn chặn:

  1. Việc sử dụng tư liệu để huấn luyện AI tạo sinh
  2. Việc bắt chước giọng văn, phong cách của tác giả
  3. Việc tạo ra tác phẩm phái sinh tương tự đáng kể

Dù hợp đồng cho phép sử dụng AI cho mục đích nội bộ như OCR và tạo metadata, nhưng câu hỏi lớn vẫn là: Làm sao thực thi những điều khoản này khi internet vẫn đang là một “bữa tiệc buffet mở” về nội dung?

Metz cho rằng để tuân thủ tuyệt đối, chỉ có hai lựa chọn:

  1. Gỡ nội dung khỏi web công khai; hoặc
  2. Yêu cầu người dùng ký cam kết pháp lý rõ ràng.

Cả hai giải pháp đều đi ngược lại tinh thần “mở” mà các tổ chức di sản đã theo đuổi trong nhiều thập kỷ.

 

Con đường trung gian?

Metz đề cập đến các tiêu chuẩn mới như Really Simple Licensing (tiêu chuẩn cho phép gắn metadata cấp phép trực tiếp vào nội dung dưới dạng machine-readable) và Web Bot Auth (cơ chế yêu cầu bot phải xác thực danh tính trước khi truy cập nội dung), nhằm tạo cơ chế thực thi bằng máy để hạn chế hoặc yêu cầu trả phí khi bot truy cập nội dung. Tuy nhiên, cho đến khi các vụ kiện lớn như The New York Times Company v. Microsoft Corporation đi đến phán quyết cuối cùng, câu chuyện pháp lý về quy định sử dụng nội dung cho các mô hình AI vẫn còn mơ hồ.

 

Góc nhìn từ Digitizing Việt Nam

Đối với Digitizing Việt Nam, những câu hỏi Metz đặt ra đặc biệt cấp thiết. Dự án đang xây dựng hạ tầng số để mở rộng truy cập tới các tư liệu về Việt Nam. Tuy nhiên, song song với mục tiêu truy cập mở là trách nhiệm đạo đức đối với nhà hiến tặng, tác giả và cộng đồng. “Mở” không thể đồng nghĩa với “mặc nhiên cho phép khai thác vô hạn.”
 Bài viết của Rosalyn Metz nhắc chúng ta rằng:

  1. Hạ tầng số không chỉ là câu chuyện kỹ thuật, mà còn là câu chuyện về pháp lý và đạo đức.
  2. Niềm tin của người hiến tặng là nền tảng của mọi dự án số hóa.
  3. Chúng ta cần những mô hình mở có chủ đích và có kiểm soát  (“open with intention”).

Trong kỷ nguyên AI, câu hỏi lớn cho các dự án di sản số sẽ không còn là “có nên mở hay không,” mà là: Mở như thế nào để vẫn bảo vệ được tri thức và những người trao gửi nó?