Lần đầu tiên AI đọc được ngôn ngữ từ cuộn giấy cổ

Ngọc Hưng |

Bằng cách sử dụng phương pháp chụp cắt lớp tính vi kết hợp với trí tuệ nhân tạo (AI), các nhà nghiên cứu đã có thể đọc được văn bản trên cuộn giấy Herculaneum cổ.

Thoạt nhìn, các cuộn giấy Herculaneum trông không có gì nổi bật, giống như những mẩu than đá. Được tìm thấy sau vụ phun trào núi Vesuvius vào năm 79 sau Công Nguyên, những tài liệu gần 2.000 năm tuổi này sẽ vỡ vụn nếu có ai đó cố gắng mở chúng ra. Vì vậy, cho đến giờ, những mảnh còn sót lại chữ gần như không có phương pháp nào để đọc bằng mắt thường.

Phát hiện mang tính đột phá

Để có thể khám phá được nội dung có trong những cuộn giấy cổ, một nhóm các nhà nghiên cứu đã phát động “Thử thách Vesuvius”. Nhờ đó mà sau hai thiên niên kỷ, một trong những cuộn giấy cổ chưa được mở đã được giải mã nhờ sự kết hợp của công nghệ máy tính và AI.

Luke Farritor, sinh viên tại trường Đại học Nebraska–Lincoln đã phát triển một thuật toán học máy dò được những chữ cái trên phần lớn những dòng của các cuộn giấy papyrus, bao gồm từ “πορφυρας” hay “porphyras”, tiếng Hy Lạp có nghĩa là màu tím. Farritor đã sử dụng những khác biệt quy mô nhỏ không dễ phát hiện trên bề mặt văn bản để huấn luyện công nghệ tập trung vào mực in.

Lần đầu tiên AI đọc được ngôn ngữ từ cuộn giấy cổ - Ảnh 1.

Các chữ cái được tìm thấy là “πορφυρας” là từ “porphyras” trong tiếng Hy Lạp và dịch sang từ tiếng Anh “màu tím”. Ảnh: Brent Seales

Mực La Mã xưa có gốc carbon, nghĩa là các nhà nghiên cứu đang cố gắng “đọc” dấu vết carbon trên các trang giấy carbon hóa được cuộn lại thành ba chiều.

Việc thực hiện bắt đầu bằng chụp cắt lớp vi tính, một quy trình chụp X-quang được sử dụng để quét từng cuộn giấy cổ bị cong vênh. Sau khi theo dõi các lớp cong trong quá trình quét, các nhà nghiên cứu sẽ làm phẳng các cuộn giấy. Đồng thời, sử dụng AI tiên tiến đã được đào tạo để tìm mực trên trang. Công nghệ này được tạo ra bởi giáo sư khoa học máy tính Brent Seales của Đại học Kentucky và đã được phát triển gần 20 năm nay.

Tuy nhiên, có thể sẽ mất nhiều thời gian để có thể đọc được văn bản trên các cuộn giấy Herculaneum.

Nguồn gốc của những cuộn giấy Herculaneum

Vụ phun trào núi lửa gần Naples (Italia) vào năm 79 sau Công nguyên đã nhấn chìm các thành phố La Mã cổ đại Pompeii và Herculaneum trong dung nham. Theo Hiệp hội thành phố Herculaneum, các cuộn giấy bị chôn vùi, cho đến khi một công nhân khoan giếng tình cờ phát hiện ra dấu tích của thành phố cổ vào đầu những năm 1700 .

Theo Đại học Kentucky, khoảng 1.100 cuộn giấy carbon hóa, ngày nay được gọi là cuộn giấy Herculaneum, đã được thu hồi từ một tòa nhà được cho là nhà của bố vợ của Julius Caesar. Bộ sưu tập được coi là thư viện quy mô lớn duy nhất được biết đến từ thời cổ đại.

Lần đầu tiên AI đọc được ngôn ngữ từ cuộn giấy cổ - Ảnh 3.

Một số hình ảnh về giấy cổ Herculaneum bị thiêu đốt và vùi lấp bởi than đá. Ảnh: Đại học Kentucky

Theo trang web của trường đại học này, vào thế kỷ 19, hàng trăm cuộn giấy đã được tách ra bằng máy và các cuộn giấy cổ giòn bị xé thành từng mảnh.

Giống như nhiều nhà nghiên cứu giấy cổ Herculaneum khác, Michael McOsker, một nhà nghiên cứu tại Đại học College London cho rằng việc tách hoặc xé các cuộn giấy trước đây sẽ khiến giấy cổ bị rời rạc và khó đọc.

Tuy nhiên, sau khi biết về phát hiện gần đây, McOsker nói rằng: "Mục tiêu của chúng ta là đọc được nội dung của các cuộn giấy. Vấn đề khó khăn nhất đã được giải quyết và tôi chắc chắn sẽ không mất nhiều thời gian để làm điều này."

"Tôi cảm thấy biết ơn về bất kỳ tác phẩm mới nào từ thời cổ đại mà chúng tôi tìm thấy và chắc chắn đó là những nghiên cứu thú vị", McOsker nói thêm.

Cuộc thi Thách thức Vesuvius đưa ra một loạt giải thưởng. Vào ngày 12/10 vừa qua, ban tổ chức thông báo giải thưởng "những chữ cái đầu tiên" trị giá 40.000 USD cho người đọc hơn 10 ký tự trong một miếng giấy papyrus. Youssef Nader, một học viên cao học tại Đại học Free ở Berlin, nhận được giải nhì với trị giá 10.000 USD.

Trong đó có một giải thưởng chính, trị giá 700.000 USD cho những ai có thể đọc bốn hoặc nhiều đoạn từ một cuộn giấy cổ. Giải thưởng này hiện vẫn chưa tìm được chủ nhân.

Giáo sư khoa học máy tính Brent Seales hy vọng rằng người có thể nhận được giải thưởng lớn này có thể sớm xuất hiện vào cuối năm nay và công việc giải mã toàn bộ cuộn giấy được hoàn thành vào cuối năm 2024.

“Tài liệu này đã có từ 2.000 năm trước. Những người thời đó viết về tình yêu, chiến tranh, hòa bình và những vấn đề gây tranh cãi. Những bản thảo này ghi lại quan điểm triết học về thế giới của những người xưa. Do vậy, ngay cả khi chúng ta không học được gì, thì mối liên hệ sâu sắc mà chúng ta có với người xưa về mặt nhân loại vẫn là điều quan trọng", ông Brent Seales chia sẻ.

Đường dây nóng: 0943 113 999

Soha
Báo lỗi cho Soha

*Vui lòng nhập đủ thông tin email hoặc số điện thoại