您現(xiàn)在的位置:首頁 > 教學(xué)論文 > 大學(xué)音樂論文 >

樂譜數(shù)字化的新途徑 ―― 計(jì)算機(jī)光學(xué)樂譜識(shí)別技術(shù)

作者:劉曉翔 張樹生 朱玉璋   來源 :中小學(xué)音樂教育網(wǎng)   發(fā)布時(shí)間:2018-01-17   點(diǎn)擊:

 

樂譜數(shù)字化的新途徑 ―― 計(jì)算機(jī)光學(xué)樂譜識(shí)別技術(shù)

西北工業(yè)大學(xué) 劉曉翔 張樹生 西安音樂學(xué)院 朱玉璋

稿源:中音網(wǎng)

     摘 要 計(jì)算機(jī)光學(xué)樂譜識(shí)別(Optical Music Recognition,OMR)是計(jì)算機(jī)技術(shù)在音樂領(lǐng)域的發(fā)展和應(yīng)用,它利用圖像處理、模式識(shí)別、文檔圖像分析等相關(guān)技術(shù),把樂譜圖像自動(dòng)轉(zhuǎn)化成通用的數(shù)字音樂格式。OMR技術(shù)為紙質(zhì)樂譜數(shù)字化提供了一個(gè)智能、高效的新途徑,在計(jì)算機(jī)音樂、計(jì)算機(jī)輔助音樂教學(xué)、數(shù)字音樂圖書館等眾多領(lǐng)域有著廣泛的應(yīng)用前景。
     關(guān)鍵詞: 光學(xué)樂譜識(shí)別,數(shù)字化,數(shù)字音樂圖書館
     1 問題的提出
     信息技術(shù)改變著社會(huì)生產(chǎn)和人類生活的各個(gè)方面,人類社會(huì)正在步入一個(gè)數(shù)字化時(shí)代?,F(xiàn)代計(jì)算機(jī)科學(xué)與音樂藝術(shù)的結(jié)合產(chǎn)生了計(jì)算機(jī)音樂,它的出現(xiàn)不僅體現(xiàn)了計(jì)算機(jī)技術(shù)的一次革命,而且給人類的音樂活動(dòng)帶來了生產(chǎn)方式的根本變革,人們對(duì)音樂的創(chuàng)作、演奏、傳播從傳統(tǒng)的手工作業(yè)方式一躍而為高科技方式。
     樂譜的發(fā)明是人類音樂史上的里程碑,它的出現(xiàn)使人們可以在一個(gè)相對(duì)標(biāo)準(zhǔn)的平臺(tái)上進(jìn)行音樂的交流和傳承。古往今來的優(yōu)秀音樂作品大都以紙質(zhì)樂譜的形式保留下來,直至今天,紙質(zhì)樂譜仍是表達(dá)和描述音樂作品的主要載體。
     基于以上的時(shí)代背景與事實(shí),那些長(zhǎng)期涉足于計(jì)算機(jī)音樂的人士便迫切地提出了這樣一個(gè)問題:讓“紙質(zhì)樂譜進(jìn)入計(jì)算機(jī),計(jì)算機(jī)讀懂樂譜”,能夠?qū)崿F(xiàn)嗎?
     在計(jì)算機(jī)音樂發(fā)展的近幾十年中,各種音序編輯軟件層出不窮,如Encore、Cakewalk等,這類軟件的出現(xiàn)告訴人們,“樂譜進(jìn)入計(jì)算機(jī)”已經(jīng)不成為問題。然而,利用音序編輯軟件進(jìn)行樂譜數(shù)字化是一種純手工人的方式,即手工錄入――校對(duì)――修改的方法,錄入人員必須具有一定的音樂專業(yè)知識(shí),而且輸入工作量大、效率低。因此,在紙質(zhì)樂譜數(shù)字化的進(jìn)程中,不可避免地產(chǎn)生了低速的音樂信息輸入與高速信息處理之間的矛盾。于是,一些計(jì)算機(jī)學(xué)者和專家們開始尋求一條紙質(zhì)樂譜數(shù)字化的新途徑,力圖突破純手工的樂譜數(shù)字化瓶頸,自動(dòng)完成樂譜向數(shù)字音樂的智能轉(zhuǎn)化,即實(shí)現(xiàn)真正意義的“計(jì)算機(jī)讀懂樂譜”。經(jīng)過十幾年的研究和探索,計(jì)算機(jī)光學(xué)樂譜識(shí)別(Optical Music Recognition,以下簡(jiǎn)稱OMR)技術(shù)應(yīng)運(yùn)而生。
     2 光學(xué)樂譜識(shí)別技術(shù)的應(yīng)用
     OMR技術(shù)是將紙質(zhì)樂譜由掃描儀輸入到計(jì)算機(jī),經(jīng)過處理,把樂譜圖像自動(dòng)轉(zhuǎn)化為計(jì)算機(jī)能“讀懂”的數(shù)字音樂--標(biāo)準(zhǔn)音樂格式文件(如midi格式)。這數(shù)字音樂文件與采集聲音數(shù)據(jù)的音頻文件(如WAV格式)不同,它的原理是“記譜”,記錄的正是樂譜所表達(dá)的音樂內(nèi)容。在計(jì)算機(jī)軟、硬件強(qiáng)大功能的配合下,人們可以輕松地對(duì)其進(jìn)行編輯、加工、打印、傳播或?qū)崟r(shí)演奏。OMR技術(shù)為紙質(zhì)樂譜數(shù)字化提供了一個(gè)智能、高效的新途徑,有著極為廣泛的應(yīng)用前景,以下我們重點(diǎn)從計(jì)算機(jī)輔助音樂教學(xué)和數(shù)字音樂圖書館建設(shè)兩方面介紹OMR技術(shù)在其中的應(yīng)用:
     1)計(jì)算機(jī)輔助音樂教學(xué)
     在由應(yīng)試教育向素質(zhì)教育轉(zhuǎn)軌并不斷發(fā)展的今天,多媒體電腦音樂走進(jìn)課堂已成為時(shí)代發(fā)展和音樂教育的需要。一臺(tái)集成OMR系統(tǒng)、midi音樂系統(tǒng)的多媒體電腦即可代替?zhèn)鹘y(tǒng)的“課本+黑板+鋼琴音樂教學(xué)模式。通常,音樂教師在黑板上寫出的譜例在學(xué)生心中難以形成音響的聽覺聯(lián)想,而鋼琴上彈出的聲音轉(zhuǎn)瞬即逝。借助OMR系統(tǒng),教師則可在課堂上即時(shí)地將課本上的譜例生成midi文件,利用其非常直觀的樂譜顯示功能以及實(shí)時(shí)性、動(dòng)態(tài)性的特點(diǎn),將譜例與實(shí)踐音響同步展現(xiàn)在學(xué)生面前,并可迅速重新演奏或演奏樂譜中的任一片斷,使學(xué)生的聽覺與視覺形象融為一體,從而激發(fā)學(xué)生的學(xué)習(xí)興趣。
     2)數(shù)字音樂圖書館
     隨著數(shù)字圖書館的蓬勃發(fā)展,數(shù)字音樂圖書館也悄然興起。如同音樂文獻(xiàn)資源建設(shè)是傳統(tǒng)音樂圖書館的基礎(chǔ)性業(yè)務(wù)工作一樣,獲取大量的數(shù)字化音樂內(nèi)容是建設(shè)數(shù)字化音樂圖書館的核心內(nèi)容。在建設(shè)過程中,必然會(huì)面臨的一個(gè)突出問題就是已有音樂資源的數(shù)字化問題。傳統(tǒng)音樂資源最主要的對(duì)象是印刷型紙介質(zhì)樂譜,快速準(zhǔn)確地將傳統(tǒng)圖書館保存的紙質(zhì)樂譜資源數(shù)字化便成為建設(shè)數(shù)字音樂圖書館的當(dāng)務(wù)之急。
     紙質(zhì)樂譜的數(shù)字化有兩種形式:一種是采用光學(xué)掃描壓縮存貯樂譜圖像,存貯格式有TIFF、JPEG、GIF等多種。另一種是根據(jù)樂譜描述的音樂內(nèi)容將其轉(zhuǎn)化成數(shù)字化音樂文件,如midi文件。同樣作為數(shù)據(jù)資源,數(shù)字化音樂文件具有存貯空間小、表現(xiàn)方式靈活、檢索方便快速等許多圖像文件無法比擬的優(yōu)勢(shì),是數(shù)字音樂圖書館在Internet環(huán)境下理想的數(shù)據(jù)載體。
     音樂圖書館所藏的樂譜數(shù)以萬計(jì),如此浩大的電子化工程,若單純靠傳統(tǒng)的人工錄入,將是漫長(zhǎng)和繁重的工作,既費(fèi)時(shí)又昂貴。所以,建立一個(gè)快速準(zhǔn)確、重碼率低的樂譜輸入方案,是進(jìn)行大批量樂譜數(shù)字化的關(guān)鍵。OMR技術(shù)正為數(shù)字音樂圖書館解決樂譜數(shù)字化難題提供一套完整便捷的解決方案。國內(nèi)外,光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OMR)技術(shù)在數(shù)字圖書館文獻(xiàn)錄入的應(yīng)用已經(jīng)獲得了巨大的成功。同樣,在數(shù)字音樂圖書館領(lǐng)域,OMR擁有著巨大的市場(chǎng)潛力和價(jià)值。
     國外已經(jīng)意識(shí)到OMR對(duì)數(shù)字音樂圖書館建設(shè)潛在的巨大作用。1994年9月,美國國家科學(xué)基金會(huì)(NSF)正式公布了一項(xiàng)為期四年投入2440萬美元的“數(shù)字圖書館首創(chuàng)計(jì)劃”(Digital Library Initiative)。1998年,由國家科學(xué)基金會(huì)(NSF)、國家人文學(xué)資助會(huì)(NEH)等機(jī)構(gòu)聯(lián)合資助數(shù)字圖書館倡議第二階段。在中標(biāo)的47個(gè)項(xiàng)目中有3項(xiàng)是關(guān)于數(shù)字音樂圖書館的研究和開發(fā)[4],其中以O(shè)MR為技術(shù)支持的研究項(xiàng)目有美國馬薩諸塞大學(xué)的連機(jī)音樂識(shí)別和查詢系統(tǒng)(OMRAS),瓊斯?霍普金斯大學(xué)的Lester S. Levy數(shù)字化活頁樂譜藏品錄入與查詢系統(tǒng)。此外,在新西蘭,瓦卡托大學(xué)為新西蘭數(shù)字圖書館開發(fā)了樂譜聯(lián)機(jī)識(shí)別系統(tǒng)和基于音樂內(nèi)容檢索的查詢系統(tǒng)(MELody inDEX)。值得關(guān)注的是,以上系統(tǒng)的樂譜錄入方案均采用的是OMR技術(shù)。
     由于國內(nèi)數(shù)字音樂圖書館的建設(shè)才剛剛起步,目前尚未見到OMR應(yīng)用于數(shù)字音樂圖書館的文獻(xiàn)和報(bào)道。但由以上分析可以看到,早日研究和開發(fā)出國內(nèi)自己的OMR系統(tǒng),不僅對(duì)于我國未來數(shù)字音樂圖書館的建設(shè)和推廣具有及其重要的意義,而且勢(shì)在必行。
     3 國內(nèi)外光學(xué)樂譜識(shí)別技術(shù)研究現(xiàn)狀
     國外有關(guān)OMR的研究起始于60年代后期,當(dāng)時(shí)由于技術(shù)條件和硬件設(shè)備的限制,所研究的內(nèi)容也是非常有限的。到了70年代,隨著光學(xué)掃描儀的出現(xiàn)和機(jī)器性能的提升,OMR才真正已經(jīng)引起眾多學(xué)者的廣泛注意。進(jìn)入80年代后,隨著計(jì)算機(jī)圖形圖像技術(shù)的不斷發(fā)展與成熟,研究?jī)?nèi)容越來越深入,其研究成果也逐步進(jìn)入實(shí)用階段。目前已經(jīng)出臺(tái)的商品化OMR軟件系統(tǒng)有:OMeR、midiScan、SmartScore、SharpEye Music Reader、PhotoScore等。對(duì)于常見的印刷體五線譜樂譜,它們的識(shí)別率均在90%以上,同時(shí)提供強(qiáng)大的后期編輯、打印功能,最終識(shí)別結(jié)果可導(dǎo)出為midi、Niff、Music XML等數(shù)字音樂文件。
     在我國,一方面由于計(jì)算機(jī)音樂發(fā)展起步晚,計(jì)算機(jī)音樂只是少數(shù)音樂工作者的“專利”,社會(huì)缺乏計(jì)算機(jī)識(shí)別樂譜的需要;另一方面,由于國內(nèi)高校的學(xué)科設(shè)置綜合化程度、學(xué)科交叉的跨度與國外有著相當(dāng)大的差距,長(zhǎng)期以來,從事計(jì)算機(jī)音樂研究的專業(yè)人才嚴(yán)重缺乏。因此,OMR技術(shù)在國內(nèi)的系統(tǒng)研究和實(shí)踐工作幾乎為空白。目前,西北工業(yè)大學(xué)與西安音樂學(xué)院合作正在開展印刷體光學(xué)樂譜識(shí)別技術(shù)的研究。隨著我國大規(guī)模傳統(tǒng)資源數(shù)字化進(jìn)程的推進(jìn),數(shù)字化音樂教育與圖書館界國際交流與合作的增加與擴(kuò)大,OMR技術(shù)必將逐步受到國內(nèi)學(xué)者與研究機(jī)構(gòu)的重視。相信在不遠(yuǎn)的將來,OMR技術(shù)將在我國數(shù)字化音樂教育與數(shù)字音樂圖書館的建設(shè)中發(fā)揮巨大的作用,縮小我國計(jì)算機(jī)音樂在應(yīng)用高新技術(shù)方面與國外的差距。
     4 光學(xué)樂譜識(shí)別技術(shù)原理簡(jiǎn)介
     OMR是一項(xiàng)綜合應(yīng)用數(shù)字圖像處理、模式識(shí)別、人工智能、音樂理論等多門相關(guān)學(xué)科的交叉技術(shù),其目的就是要讓計(jì)算機(jī)“讀懂” 樂譜。一個(gè)完整OMR系統(tǒng)主要由五大模塊組成:樂譜掃描輸入與預(yù)處理、譜線定位與刪除、音符基元識(shí)別、音符基元重組及語義理解,其處理流程如圖1所示。
     
     圖1. OMR系統(tǒng)處理流程示意圖
     (1) 樂譜掃描輸入與預(yù)處理
     將紙質(zhì)樂譜經(jīng)掃描儀輸入計(jì)算機(jī)生成樂譜圖像,并對(duì)掃描圖像中的噪聲、局部變形等缺陷進(jìn)行消除和彌補(bǔ)。
     (2) 譜線定位與刪除
     針對(duì)樂譜圖像絕大多數(shù)符號(hào)和標(biāo)記都疊加在譜線上這一特征,在提取和識(shí)別音符對(duì)象前首先對(duì)譜線進(jìn)行定位和刪除,這樣可將各種音樂符號(hào)從譜線中分離出來,以排除譜線在識(shí)別音符過程中造成的巨大干擾。
     (3) 音符基元識(shí)別
     譜線刪除后的樂譜圖像可視作一幅僅由音符基元組成的圖集。所謂音符基元就是由各種音樂符號(hào)分解得到的最小符號(hào)圖形,它們通常是符頭、符干、符尾、升降號(hào)、譜號(hào)、休止符等,這些圖形的有效組合即構(gòu)成了具有音樂語義的音符對(duì)象。識(shí)別音符基元的目的就是經(jīng)過計(jì)算機(jī)的模式識(shí)別處理,使計(jì)算機(jī)能“認(rèn)識(shí)和區(qū)分”這些最小音樂符號(hào)。
     (4) 音符基元重組
     利用樂譜知識(shí)規(guī)則將音符基元重新組合成特征音符對(duì)象。其功能是通過基于知識(shí)的意愿重組技術(shù),將人所具備的音樂知識(shí)“傳授”給計(jì)算機(jī),使計(jì)算機(jī)能模擬“識(shí)譜”這樣一個(gè)人為學(xué)習(xí)過程。
     (5) 音符語義理解
     對(duì)音符對(duì)象所代表的音樂語義進(jìn)行解釋,生成語義編碼,最后根據(jù)語義編碼將識(shí)別結(jié)果輸出成音樂格式文件。
     從總體考慮,OMR系統(tǒng)應(yīng)是一個(gè)基于樂譜的專家系統(tǒng),該系統(tǒng)應(yīng)具有音樂工作者閱讀和書寫樂譜的智能,不僅需要有音符特征判斷的規(guī)則和算法,而且需要音樂理論知識(shí)和經(jīng)驗(yàn)。最近這方面的努力向著更為成熟、復(fù)雜、綜合的方向發(fā)展,人工智能、神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)技術(shù)在OMR系統(tǒng)中的深入應(yīng)用將是未來OMR技術(shù)的發(fā)展趨勢(shì)。
     參考文獻(xiàn):
     [1] D. Blistein and H. Baird. A Critical Survey of Music Image Analysis. In: Springer-Verlag, editor, Structured Document Image Analysis, pages 405-434, Eds. H. S. Baird, H. Bunke, K. Yamamoto,1992.
     [2] R.J. McNab, L.A. Smith, I.H. Witten, C.L. Henderson, and S.J. Cunningham. Towards the digital music library: tune retrieval from acoustic input. In Proc Digital Libraries, pages 11-18, 1996
     [3] "大規(guī)模文獻(xiàn)數(shù)字化的實(shí)踐與數(shù)字圖書館建設(shè)"
     [4] "數(shù)字圖書館在美國的研究與發(fā)展現(xiàn)狀"

站內(nèi)搜索: 高級(jí)搜索
中小學(xué)音樂教育網(wǎng)
中小學(xué)音樂教育網(wǎng) 版權(quán)所有,未經(jīng)授權(quán)禁止復(fù)制或鏡像 網(wǎng)站備案編號(hào):蘇ICP備08000963號(hào)
版權(quán)申明:本站文章部分來自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)留言說明,我們收到后立即刪除或添加版權(quán)
建議使用IE6.0及以上版本 在1024*768及以上分辨率下瀏覽,QQ:3999112
中小學(xué)音樂教育網(wǎng)