書籍數位化:Google vs. 開放版權

若說到數位書藉,就會想到兩個目前正在進行的計劃:一個計劃是開放版權的,而另一個,就是Google自行進行的計劃。

十月底,Internet Archive這個非營利組織舉行了一個像是派對一般的聚會,這個組織,由Smithsonian博物館基金會、惠普、Yahoo與微軟MSN共同參與,其目標是讓世界上的書本都數位化,然後可以讓全球的人共同使用。

引人注目的是,Google在這個聚會當中缺席。因為Google這個搜尋巨人本身就有一個宏大的計劃,要將圖書館的書籍數位化,然後將其加入可搜尋的資料索引之中。 (See Google Book Search)

Internet Archive此一組織位於舊金山市,是一個非營利性的組織,其中部分支持者,也趁這個聚會的機會批評私人企業的數位化計劃。

「我們希望將人類的所有知識數位化,但這些數位化的資料不該被私有化,」從2003年起,就對Internet Archive捐獻超過三百萬美元的慈善機構Alfred P. Sloan基金會的主管Doron Weber,提到成立以教育為目的版權開放圖書館的重要性。他同時要求私有公司「克制私有化的衝動」,同時也要求傳統圖書館能一起「擁抱未來」。

然而一位出席該會的Google主管對於可能面臨的競爭態勢不以為然。

「我認為這個計劃很棒,」Google的資深產品企劃Alexander Macgillivray表示,「但這兩個計劃的目標是互補的,所以把這兩個計劃描途成一場戰爭是很糟糕的一件事。」

在近年來,將書本數位化已經變成近年來一個熱門的焦點,因為人們一直希望把各種傳統的,類比的資料放上網路。學術論文,各種從古典到流行的音樂,以及影象等等資料都在被數位化,而且現在書本也在這個行列之中。

在十個月前,Google公開了一個長程的數位化計劃,這個計劃與哈佛、史丹福等大學合作,將有版權以及無版權的書本用數位方式進行儲存。在2004年,網路公司Amazon也在其網站上推出數位圖書資料庫的內容,並聲稱該公司將與出版商合作,將有名的書本內容掃描起來。因此Amazon網站的使用者甚至可以「尋找書中內容」。

然而,真正要讓世界上數以百萬計的書籍通通上網可是個具大的工程。在這個計劃中,出版商的版權、資料儲存與備份空間,以及員工薪水仍舊是個大問題。根據Internet Archive的數據,要數位化一百萬本的書,需要6 petabyte的空間。(譯注:1 petabyte=1000 terrabyte=1000*1000 gigabytes)。相對來說,據說Google目前的網頁搜尋引擎資料庫存有一千萬張網頁資料,只需要大約至少1.7,最多 5 petabyte的儲存空間。

不過,在數位化內容這個領域中,法律問題這個燙手山芋已然出現。Google遭受一些出版商與作者的控告,指出Google侵害他們的著作權,其行為也超過了法律規定的「合理使用」範圍。然而Google已經提供出版商一個「排除」程式,因此他們可以告訴Google不要掃描他們的哪些書,同時也不要放到其搜尋網路中。

至於Internet Archive這個組織則只計劃掃描版權開放,以及該書籍的版權所有者允許掃描的這些書籍。

雖然還需要數年的努力,但因為與開放內容聯盟(Open Content Alliance)的合作,Internet Archive最近進度突飛猛進。開放內容聯盟的成員包括Adobe Systems、哥倫比亞大學、European Archive、Biodiversity Heritage圖書館以及史密森圖書館。

同時Yahoo以及MSN搜尋也是兩個令人注目的成員,因為他們都在網路搜尋上大幅投資、同時這個計劃也可以吸引更多的客群到他們的私人服務中。在最近一次的會議中,這兩家公司都大幅宣揚這個計劃的開放性與自由性,但這兩家公司對於「開放性」計劃的忠誠,絕對是源於對Google數位化計劃的反擊。因為最終這個開放的數位圖書館,將可以使用MSN Search與Yahoo來搜尋內容。

然而為對這個計劃表達支持,這兩家公司必須捐錢。以MSN Search來說,已經撥出了五百萬美元,同時必須要在明年內將十五萬本書籍掃描完成,同時加入資料庫。

上週,Internet Archive已啟用了一個線上的「開放圖書館」,根據他們的說法,最終世界上所有書籍資料將存放在這個網站上。目前網站上展示了十五本不同的數位著作。這個網站的介面是由英國的大英圖書館所修改而來。

這個機構將會將由加州大學儲存計劃挑選出的一萬八千本已經沒有版權約束的書籍進行數位化。

目前,人們可以在Open Library網站下載這15本展示性的數位書籍,然後在家裡自由地列印觀看。另外,使用者也可以在Lulu.com花八塊美元下載全部內容。這樣子的型態,在未來,會讓個人可以自行列印各種書籍,自行創作專屬書籍的封面。使用者甚至可以在電腦上搜尋書籍內容,然後電腦便會列出有該關鍵字的頁面。只要一動游標,就可以自動翻頁。

LibriVox是其中的一個子計劃,目標是讓書籍有聲化。該計劃的義工團隊已經在網站上提供許多有聲書版本,讓使用者可以下載聆聽。

另外,Internet Archive也在美國境內開始了名為「行動圖書」的巡迴宣傳,推銷個人隨選印刷書籍服務。他們推出裝有電腦、印表機的箱型車,可以幫國內四處的小孩依照需求列印圖書。

如何進行數位化

Google已經公布了一些數位化資料的些許細節(但該公司對於與其圖書館合作對象的協議內容則拒絕透露),至於Internet Archive組織,則公布了一些技術細節。

為了將書本內容客制化,Internet Archive發明了一個特製的掃描裝置,同時撰寫了一個叫Scribe的開放版權軟體。這個機器由安裝Scribe軟體的標準個人電腦,兩個Canon的EOS相機,以及一個踏板控制的架子,由金屬與玻璃組成,可以將書夾好,同時有一個黑色的罩子,可以幫書本與相機鏡頭隔絕周遭的光線。

然後負責掃描的人員,必須坐在椅子上用手翻頁,同時操作電腦程式。在掃描的過程中,書本與玻璃面呈九十度角,根據Internet Archive的說法,這樣可以減少光線對於書本表面造成的傷害。操作人員踩下踏板讓書離開掃描器,然後用手翻頁,然後掃描下一頁。

一旦相機攝影完畢,書頁的照片就會以原始形式呈現在螢幕上。然後Scribe的軟體就會將書頁的中心點找到,然後調整照片的角度來讓整頁形狀更完整。同時他也會調整色彩,讓每一頁都一致。

然後操作人員會輸入一些關於這本書的資料──書本作者、書名與出版日期等等。一旦一本書掃描完成,就會存入資料庫中分門別類。Scribe會該書的資訊與資料庫裡已有的書目進行比對。最後數位化的資料便建立完成。

兩本三百頁的書,大約需要一小時的時間才能掃描完成。根據專案總監BrewsterKahle的說法,每頁大約會花費10美分的成本,這些成本來自於資料儲存、勞力、硬體與管理的成本。這個花費還不包括向圖書館商借書本的費用。

加州大學,資料庫計劃人員的Daniel Greenstein表示,他的團隊已經捐獻了五十萬美元,以支付向圖書館商借大量圖書的費用。

Internet Archive目前有十台掃描機,在明年會新增十台。

「這是我們人類曾作過最偉大的事情之一,」Kahle表示「這跟過去亞歷山大的圖書館,或是人類登陸月球一樣偉大。」

Stefanie Olsen‧郭文興譯  2005/11/07

http://taiwan.cnet.com/enterprise/technology/0,2000062852,20102310,00.htm

 

本篇發表於 電腦和網際網路。將永久鏈結加入書籤。

1 Responses to 書籍數位化:Google vs. 開放版權

  1. . 說道:

    剛剛遊過你的網頁^.^ 留一下言得閒你也來我的網頁~遊下 愛不壞 (~’.’~)(‘.^~)

發表留言