埃及

注册

 

发新话题 回复该主题

人工智能首次读出赫库兰尼姆古卷中的文字 [复制链接]

1#

一名21岁的计算机科学专业学生在一次全球竞赛中获胜,读出了古罗马城市赫库兰尼姆碳化卷轴中的第一段文字,该卷轴自公元79年火山爆发以来一直无法被读取,而那次火山爆发也掩埋了附近的庞贝古城。这一突破可能会打开希腊罗马古代唯一保存完好的图书馆中的数百个文本。

内布拉斯加大学林肯分校的卢克-法里托尔(LukeFarritor)开发了一种机器学习算法,在卷起的纸莎草纸上检测到了几行希腊字母,其中包括πορjυρα?(porphyras),意为"紫色"。Farritor利用表面纹理的细微差别来训练神经网络,并突出墨迹。

意大利那不勒斯大学的纸莎草学家、审查Farritor研究成果的学术委员会成员FedericaNicolardi说:"当我看到第一张图片时,我震惊了。这简直是一场梦。现在,我真的可以从卷轴内部看到一些东西"。

公元79年10月,维苏威火山爆发,赫库兰尼姆被20米高的火山灰掩埋,数以百计的卷轴被掩埋。早期打开纸莎草纸的尝试失败,产生了一堆碎片,学者们担心其余的纸莎草纸永远无法展开或阅读。

维苏威火山挑战赛设立了一系列奖项,从卷轴中读出四个或更多段落将获得70万美元的主奖金。10月12日,主办方宣布,法里托尔因在4平方厘米的纸莎草纸上读出10个以上的字符而赢得了4万美元的"第一封信"奖。柏林自由大学研究生优素福-纳德(YoussefNader)获得第二名,奖金为1万美元。

意大利威尼斯卡福斯卡里大学(CaFoscariUniversityofVenice)古希腊和古罗马历史学家西娅-萨默希尔德(TheaSommerschield)说,最终看到卷轴中的字母和文字"非常令人激动"。这些卷轴是在十八世纪发现的,当时工人们发现了一座豪华别墅的遗迹,这座别墅可能属于凯撒大帝岳父的家族。萨默希尔德说,破译这些纸莎草纸可能"彻底改变我们对古代历史和文学的认识"。今天已知的大多数古典文本都是抄写员几个世纪以来反复抄写的结果。相比之下,赫库兰尼姆图书馆收藏的作品则没有任何其他来源,直接来自作者。

到目前为止,研究人员只能研究已打开的片段。已经发现了一些拉丁文作品,但其中大部分是与伊壁鸠鲁哲学流派有关的希腊文。其中有伊壁鸠鲁本人撰写的《论自然》的部分内容,还有一位鲜为人知的哲学家Philodemus关于恶习、音乐、修辞和死亡等主题的作品。有人认为,这个图书馆可能曾经是他的工作藏书。但是,多卷纸莎草纸--大部分保存在那不勒斯国家图书馆,少数保存在英国和法国--仍然完好无损,没有被打开过。而在别墅尚未发掘的底层,还可能发现更多的纸莎草纸。

布伦特-西尔斯(BrentSeales)是一名计算机科学家,曾帮助设立维苏威火山挑战赛,他和他的团队花了数年时间,开发出利用X射线计算机断层扫描(CT)"虚拟揭开"薄如蝉翼的纸莎草纸层的方法,并将其可视化为一系列平面图像。年,莱克星顿肯塔基大学的Seales报告1使用该技术读取了以色列En-Gedi的烧焦卷轴,揭示了《利未记》(犹太教《托拉》和基督教《旧约》的一部分)中写于公元三、四世纪的部分内容。但恩盖迪卷轴上的墨水含有金属,因此在CT扫描中会发出耀眼的光芒。赫库兰尼姆古卷上的墨水是碳基的,本质上是木炭和水,在扫描中的密度与纸莎草纸的密度相同,所以根本不会显示出来。

西尔斯意识到,即使亮度没有差异,CT扫描也可能捕捉到纹理上的微小差异,从而区分出涂有墨水的纸莎草纸区域。为了证明这一点,他训练了一个人工神经网络来读取打开的赫库兰尼姆碎片的X射线图像中的字母。然后,在年,他从巴黎法兰西学院携带了两个完整的卷轴到英国牛津附近的同步辐射X射线设施钻石光源,以目前最高的分辨率(每个三维图像元素或体素4-8微米)对其进行扫描。

然而,阅读完整的卷轴仍然是一项艰巨的任务,因此该团队向公众公布了所有扫描结果和代码,并发起了维苏威火山挑战赛。西尔斯说:"我们一致认为,与其试图囤积所有东西,不如尽早读取里面的内容。"

大约个团队很快就通过玩家聊天平台Discord进行了讨论和合作。奖品是分阶段设计的,每达到一个里程碑,就会发布获奖代码,供大家在此基础上继续开发。Farritor一直对历史感兴趣,他从小就自学拉丁语,因此很早就参与其中。

与此同时,Seales的团队还致力于虚拟解包,发布扁平碎片的图像供参赛者分析。关键时刻出现在6月下旬,一位参赛者指出,在一些图像上,肉眼偶尔能看到墨水的细微纹理,这种纹理被称为"裂纹"。法里托立即将注意力集中在寻找更多字母的蛛丝马迹。

八月的一个晚上,他正在参加一个聚会,突然收到一条提示,说有一个新的片段发布了,其中的裂纹特别明显。通过手机连接,他在新图像上运行了算法。一小时后,他走在回家的路上,掏出手机,看到屏幕上出现了五个字母。"我当时上蹿下跳,天哪,这真的行得通。"从那以后,他只花了几天时间就完善了模型,并确定了获奖所需的十个字母。

扫描显示黑色的纸莎草纸碎片,白色的希腊字母清晰可见。维苏威挑战赛破译的第一个单词是希腊文πορφ?ρα?,意为"紫色"。

古文字学家们也很兴奋。在打开的赫库兰尼姆卷轴中还没有读到过"紫色"一词。紫色染料在古罗马非常抢手,是用海螺的腺体制成的,因此这个词可以指紫色、长袍、买得起染料的人的等级,甚至是软体动物。尼古拉迪说,但比单个词更重要的是读出任何东西。这一进展"使我们有可能恢复整个卷轴的文字",包括标题和作者,这样就可以确定作品的身份和年代。

亚尼斯-阿萨埃尔(YannisAssael)是伦敦GoogleDeepMind公司的一名研究科学家,他认为维苏威火山挑战赛是"独一无二和鼓舞人心的"。他指出,人工智能(AI)正越来越多地帮助古文献研究,但这只是更广泛转变的一部分。例如,去年阿萨埃尔和萨默希尔德发布了一款名为"伊萨卡"(Ithaca)的人工智能工具,旨在帮助学者收集不明古希腊碑文的日期和来源,并提出文本建议以填补空白2。现在,该工具每周都会收到数百条询问,类似的工作也正在应用于从韩语到古代美索不达米亚使用的阿卡德语等各种语言。

Seales希望机器学习能打开他所谓的"隐形图书馆"。所谓"隐形图书馆",指的是实际存在但无人能见的文本,包括中世纪书籍装帧中使用的羊皮纸、后来的文字遮盖了下面一层的"重写本"(palimpsests),以及用来制作古埃及木乃伊盒和面具的纸莎草纸(cartonnage)。

不过,现在所有的目光都集中在维苏威火山挑战赛上。获得大奖的截止日期是12月31日,Seales将人们的情绪描述为"无法抑制的乐观"。法里托已经在画卷的其他部分制作了自己的模型,并看到了更多的角色出现。

分享 转发
TOP
发新话题 回复该主题