2014.11.6 別說你用不到資料庫

也來談談自二七年以來便入侵我生活的「資料庫」——不是網站後臺的資料庫程式,而是數位檔案分門別類供人搜尋的資料庫。當然,這篇文章太過簡單,又太過隱晦了,不適合專家學者。如果你精於此事,請略過不才的草草數言吧。

 

.躍入數位海做研究

你當然用過資料庫,當你從Getty Images的圖庫中找出需要的圖片,或是下載維基共享資源的檔案,你已進入資料庫的世界。或者,你還會上中央氣象局網站看歷年氣候資料。

不僅僅是研究自然科學才需要「資料庫」,按按看任一間大學圖書館首頁的「電子資料庫」連結吧,咸信裡面人文類的資料庫亦讓人眼花撩亂。當一切邁向數位化,就連文史學界不得不跳入數位海。以語言學而言,過去你要研究古代的一個詞彙,不知道要翻遍多少古籍,才能把它們都挑出來,然而現在你可以上網,連上古籍資料庫,輸入你要的詞,再按下搜尋鍵,它們就一一現身。如今,歷史學家也不僅僅是埋首於故紙堆之中。一邊翻著文獻,一邊開著好幾個螢幕,瀏覽網路上的電子資料庫,或許才是他們真實的形象。

▲ 隨著數位時代來臨,書目櫃走入歷史。無紙化圖書館已出現,電子資料庫更早就入侵我們的生活。(Dr. Marcus Gossler攝於奧地利卡爾·弗朗岑斯大學圖書館,2005年。)

當然,資料庫僅僅是一種加速的工具,研究並不是在這些資料被搜尋而出之後就結束了。其後的分析、考據與論述建構,才是文史研究的核心,學人施展功力之所在。

這些聽起來或許和一般人的生活離得太遠,那就拿大家都看過的「報紙」來舉例吧。作為網路的重度使用者,你一定知道,一九九九年代以後銷量大增的《自由時報》或更晚成立的《蘋果日報》幾乎把本世紀以來它們所有的文字新聞放在網路上,但是其他報紙的內容、更早以前臺灣的新聞要到哪裡去找?是要找人要剪報嗎?還是去國家圖書館調資料?

不不,沒那麼困難。假如生於二十世紀下半葉的你,想看看自己出生當天臺灣有什麼新聞,就去一家離你最近的大學圖書館,連上《聯合報》或《中國時報》的資料庫,你會搜尋到的。

 

.資料庫的危機

把資料數位化,再建構成資料庫,是龐大的工程——首先要充實內容,除蒐羅資料,還要事先統一數位資料的規格,並建立其後設資料的內容。資料數位化之後,更需要校勘。許多中文的古籍類資料庫,可能因為投入資金及聘僱人力不足,文字辨識疏漏又缺乏校對,以致建構的數位資料品質堪慮。讓使用者每每在搜尋完資料之後,還要一一對照原文獻,更正錯誤。而影像類的資料庫,則可能有攝影品質欠佳、後設敘述不一致等問題。

數位資料建置完成後,資料庫也不是就一切OK。更需要建置搜尋的介面,乃至持續經營——比如一般可以想見的推廣、銷售與更新;若是放在「線上」,還有維持網站營運的問題。

由於工程浩大,許多好用的線上資料庫,也只有大型學術機構負擔得起。如人文類的資料庫,往往是中研院第一個購入,獲得五年五百億補助的明星大學接著買,然後才輪到國家圖書館等單位弄出經費。

然而,這也並不代表資料庫就是一門好做的生意。在這個數位資料滿天飛,人人都在網上留下足跡的大數據時代,要拷貝、轉載檔案太簡單,要湧進並搞掛一個網站也太容易。對於中國大陸的資料庫經營者而言,他們要擔心的大概是頻寬不足以及檔案免費流出管道太多;對於臺灣的資料庫經營者而言,要煩惱的應該是使用/購買者太少,建置經費及資金不足。

 

▲ 許多公立單位已把資料數位化,並建立供大眾免費使用的機制,如聯合國教科文組織支持的世界數位圖書館(World Digital Library,見上圖),從中還可發現巴西國家圖書館收藏了百年前的北京老照片呢(下圖)。其實幾年前臺灣也有國科會數位典藏計畫在推動這件事。

 

.全給你看也是行銷

過去,營銷「正版」產品者,往往抵制免費使用。然而在一個「免費」是主流的時代,指著消費者罵「貪小便宜」已經顯得落伍。就如同片商已了解採用非法管道觀賞的觀眾愈多,其實影集的DVD或數位檔銷售量也會跟著水漲船高,資料庫的經營者也想採用新的行銷模式。

二〇一四年上半,美國圖庫Getty Images把所有圖片的低解析檔案授權網友免費連結使用,終結了你我「無斷轉載」他們家圖片的歷史。同時,英國百代公司(British Pathé亦將八萬多支的新聞影片放上youtube網站,供大家免費瀏覽——看看這支一九〇八年倫敦奧運的影片吧!你是否感受到百年前運動場上的熱情,透過螢幕傳來呢?

不過在中文世界裡,許多數位資料庫並非那麼好用——或有嚴格的限制,或免費提供觀看搜尋介面卻卡得厲害,影像、文字與後設資料品質也差強人意。

在臺灣各家報紙裡面,《聯合報》的資料庫,算是內容時間跨度最長的,搜尋介面也比較完善,因此敝人在維基百科編寫臺灣老影人的條目時,往往都是參考他們家(以及香港電影資料館的圖書館網站——不得不說香港這間還會附上影人生卒年,做得比我們電影中心圖書館完善)。也因此,最近敝人才留意到《聯合報》的資料庫個人會員入門門檻比起十年前來的要高,並覺得相較之下《紐約時報》的作法倒是值得參考——

《紐時》有不少八〇年代以來的大新聞都擺在網上,或提供全文,或提供片段讓網友連結到付費網頁。讓年初在維基百科翻譯花式滑冰相關條目的我得以參照,頓時覺得這家報紙挺貼心的。《聯合報》在這方面的不作為,大概是覺得咱們市場小,大家又愛用免費,看了一段就不會想付錢看更多吧?然而,君不見臺灣某些知名老八卦作家,拿幾篇老報導抄抄,加上情緒化的論述,就能引來許多「讚」?足見老新聞還是有市場的,只是怎麼推廣而已,您說是吧?

 

.相關文章

黑白研究院:讀書室資料.報章

 

.最新消息

烹鶴報:史料