使用AI平臺閱讀舊字跡
使用人工智能,計算機可以破譯手寫文本并使每個人都可以閱讀。由奧地利因斯布魯克大學共同開發(fā)的Transkribus平臺使這項技術(shù)可供學者和公眾使用。越來越多的人正在使用Transkribus來研究他們的家族史。最近,來自世界各地的用戶齊聚因斯布魯克。
筆跡和人一樣有個性。然而,今天的計算機能夠自動識別各種語言的筆跡。由因斯布魯克大學共同開發(fā)的Transkribus軟件平臺使這項技術(shù)可供科學界、檔案館和公眾使用。來自世界各地的90,000多名用戶已經(jīng)在使用該平臺使手寫文檔具有可讀性和可搜索性。越來越多的人對他們的家族歷史感興趣,并開始在教會記錄、合同或其他歷史文件中尋找他們的祖先。
“手動搜索這些文件可能是一項非常乏味的任務(wù)。我們的技術(shù)現(xiàn)在使研究家族史變得更加容易,”奧地利因斯布魯克大學數(shù)字化和數(shù)字歸檔工作組的GünterMühlberger說,他是董事會主席歐洲合作社READ-COOP。
快速搜索大型館藏
檔案館和圖書館保存著價值不可估量的歷史文獻。這些文件占用了大量空間。例如,奧地利國家檔案館的文件占據(jù)了350公里的貨架。這些文檔中的大多數(shù)僅以手寫形式提供,并且對于許多用戶來說不再可讀,因為它們是用一種名為Kurrent的腳本編寫的,這是一種基于中世紀晚期草書的舊式德語手寫體。
“這就是Transkribus平臺派上用場的地方,它可以自動識別這種筆跡,從而使每個人都可以閱讀,”GünterMühlberger解釋道。此外,還可以輕松搜索文檔。這使得使用歷史收藏的研究變得更加容易,因為可以同時搜索成百上千的文檔以查找姓氏或其他術(shù)語。
Transkribus與神經(jīng)網(wǎng)絡(luò)一起工作。這種機器學習方法具有很大的優(yōu)勢,您不再需要為每種類型的寫作手動識別程序。“用戶教機器閱讀筆跡,”GünterMühlberger說。“而且機器不會累,這意味著它可以自動處理數(shù)千、數(shù)十萬或數(shù)百萬頁。這就是我們?yōu)榉姨m國家檔案館所做的事情,例如,超過200萬份手寫文件可以追溯到到19世紀,現(xiàn)在每個人都可以搜索。”
所使用的技術(shù)完全獨立于語言和實際腳本或?qū)懽黝愋汀ranskribus不僅可以識別德國的Kurrent或現(xiàn)代筆跡,還可以識別中世紀的文字,以及希伯來語、阿拉伯語或語的筆跡。“而現(xiàn)在,我們正在對古代漢語進行試驗,”Mühlberger補充道。
對研究人員有很大幫助
在科學和人文學科中,Transkribus的應(yīng)用是多方面的。例如,因斯布魯克古典語言學家威廉·巴頓(WilliamBarton)在Transkribus的幫助下獲得了120萬歐元的START獎,他解碼了19世紀被認為丟失的KarlBenediktHase的日記條目,用手寫的古希臘語書寫.其中包含的寶貴信息將可供其他研究領(lǐng)域使用。
“學者KarlBenediktHase的私人和秘密日記包含九年的記錄。文本量巨大,大約有2,500頁,”新拉丁研究系的威廉巴頓解釋說。“我訓練機器根據(jù)100頁來模擬Hase的筆跡。現(xiàn)在它能夠閱讀他的所有日記并可靠地轉(zhuǎn)錄文本。”愛丁堡大學最近的一項研究表明,在Transkribus的幫助下,現(xiàn)已出版了400多篇科學出版物。
標簽: