中国传统音乐知识库的“元数据本体”构建研究
摘要:中国传统音乐资源的知识库建设与国家推广民族音乐、繁荣音乐产业等文化战略相契合,也符合音乐界图书馆资源共建的诉求。“元数据本体”的构建是其中的重点,尤其是针对中国传统音乐特征与传统音乐学的知识结构做出设计。研究以中国音乐学院图书馆“中华传统音乐文化资源库”的实践为基础,尤其结合其“影像志”特点,进行基础本体方案设计;再结合传统音乐文化关联多领域的特点,构建相应类、关系和语义约束方式,如涉及乐种、乐器、民族主题词表和对曲目、乐人、地域、文字文献等领域的语义关联。该方案将有利于传统音乐分类研究和垂直领域的知识检索,且具有音乐地理学、音乐人类学社群分析等方向上的应用前景。
关键词:中国传统音乐;元数据;本体;东方乐器;乐种;语义网;知识库。
作者简介:曹军军(通讯作者),中国音乐学院在站博士后,中国音乐研究基地研究员,中国音乐学院图书馆数字人文工作坊负责人。Email:529360500@qq.com;李俊萱,中国音乐学院2021级音乐学系硕士,中国音乐学院图书馆数字人文工作坊成员;王雨荷,中国音乐学院音乐学系2021级本科生,中国音乐学院图书馆数字人文工作坊成员。
0引言
INTRODUCTION
首先交代本文论题关键之“知识库”和“元数据本体”为何。可将知识库理解为高级的数据库,其关键在于本体(ontology)的嵌入,从而有利于语义化检索,即提升信息检索的精准度或为智能检索提供一种实现方式。元数据和本体虽是两个不同的概念,但随着语义网的发展,元数据愈发表现出本体化发展趋势。就此,欧石燕提出:“元数据,采用规范化的本体描述语言(如RDFS、OWL)对元数据规范进行形式化描述,譬如……DC和DCTERMS元数据规范均采用……RDFS进行描述……笔者提出基于元数据规范构建元数据本体的思想……”。本文主要针对本体展开研究,而鉴于本体依托于元数据,是对元数据的语义化组织,不妨理解成元数据发展的高级阶段,故用“元数据本体”作为研究领域的泛指。而且,“本体”一词在艺术界一般用作“艺术作品本身”之意,为避免误读,笔者也支持“元数据本体”这种表述,以突出其特殊意涵。
鉴于元数据本体设计须领域专家的深度参与,不妨以音乐高校图书馆发起建设垂直领域的知识库为背景,以元数据本体构建的思路为新意,由此,此文或可作为音乐数字人文研究范式的一种探索践行。为某一种音乐形态如传统音乐建设知识库,其元数据本体须不止于简单套用FRBR、BIBFRAME(命名空间前缀:bf)等模型——它们的基本特征是内容与载体的分离,利于通用(非垂直)领域的图书馆管理。而针对本研究依托的特藏“中国传统音乐文化资源库”,则不仅要借鉴这些图书馆界通用的元数据本体,还有必要于之上量体裁衣,并能够充分反映传统音乐文化与学科的特点。
1研究背景
SUMMARY
图1TheMusicOntology对音乐生产流程的描述。
再放眼我国音乐产业界。以腾讯音乐、网易云音乐为代表的互联网音乐平台,积极促成以“音乐社交”为特色的“泛娱乐”产业生态,就此开发音乐行业知识图谱,但其基本类和关系围绕流行歌曲、艺人、演唱、专辑、歌单等生成,并没有专门为某种音乐类型进行量身打造。而且,传统音乐传播的娱乐性、经济效益毕竟有限,其数据库的发展若仅依赖商业驱动,前途并不乐观。
那么,我国学界对此是否可有所担当?能否以音乐数字人文作为新的产学研目标,开发适合传统音乐的知识库产品与服务?音乐学者凌嘉穗就在《数字人文时代的中国传统音乐数据库》中综述了大量音乐图书馆特藏数据库项目,并在比较中提出“数智库”的畅想,其所指实际上就是植入本体的知识库开发、语义检索的理念。对于如何在音乐知识库中挖掘知识,笔者也撰文提到,可将社会网络分析方法应用于音乐社交网络、引文网络等研究中,尤其是可结合人类学社群观念进行艺术评价和分类研究。这些路径均适用于对基于语义网技术的知识库做数据分析以获得学科情报。
基于以上背景,此处首先对本文的核心概念“元数据本体”进一步做出澄清与概念界定。数字人文领域的本体(ontology)是来自于数据科学文本分析、知识图谱领域和图书馆情报学中的概念,它与元数据虽在概念层面上有所不同,但实践中有密切联系。本体的一种定义是:“共享概念模型的明确的形式化规范说明。”笔者再做补充解释:它是基于某知识领域(如传统音乐研究)的知识结构和知识组织方式,将其拆解成作为类或对象的节点和作为其间语义关系的属性即连边,重要的语义关系如父类与子类的嵌套关系(如乐种之间的分类层级)。本体是语义网的基础模型,也是一种描述语言,如采用rdfs、owl格式,还规定了相应的语义约束、公理、规则等。而大部分元数据方案也可以转化为本体表示,加上引言中所提及之随语义网的兴起,元数据呈现出本体化的发展趋势,故不妨将其并称“元数据本体”。
如果再以更大范围的艺术数字人文为背景观察音乐数字人文的本体研究,可见已有的大部分元数据本体或较成功的案例多聚焦于视觉造型艺术,如观照物化的艺术品,对音乐元数据本体设计没有足够的参考性,则更凸显出本研究的必要性。
以传承民族音乐为特色的中国音乐学院其校图书馆在我国第一手传统民族民间音乐资源的采录、整理研究方面已有长足积累,资料以民间音乐影像志结合学术讲述、音乐展演等形式为主,细分为“视、音、图、文、谱”五大类,纳入该馆主持的“中华传统音乐文化资源库”特藏项目,于2003年启动发展至今,值语义网与数字图书馆建设转型契机,该馆目前正探索将其建设转化为知识库。本研究即结合此项目,依据传统音乐学科特点等,试开发出中国传统音乐知识库本体元数据方案的首版。
2中国传统音乐学科视域下元数据本体的设计依据
依前文分析,严肃音乐、流行音乐具有二次创作的特点,并且由于多立足于当代城市或因市场化而表现出文化工业的生产特征,所以可与音乐元数据本体的已有方案相适应。而世界各地的“传统音乐”,或称世界民族民间音乐,与中国传统音乐相似,较大区别于严肃音乐与流行音乐,因而仍缺乏相匹配的元数据本体,不利于多元音乐文化与知识的交流、传播。
本研究以中国传统音乐作为世界各地民族民间音乐的一个典型,作为与西方严肃音乐相呼应、对比,但又相异的“东方主义”的一种表征;从我国音乐学的领域知识着眼,从学科结构或知识组织方式上阐发,从而形成学科视域下的元数据本体设计。在中国传统音乐学科视域下,元数据本体设计需要考虑的问题大致如下:首先,传统音乐对物质化的乐器有较明显的依托,而自身又属于非物质文化遗产范畴;其次,传统音乐一方面具有变异性而突破了专曲专用的规约,另一方面又具有宏观上的地域封闭性和超稳定性,从而依据地理进行分类观察较有意义;第三,传统音乐的各种分类学说,如涉广义和狭义的“乐种”,会直接影响对重要的类、属性、主题词表的整体把控。以下从三个角度具体分析。
2.1对我国音乐学各子领域知识结构的借鉴与融合
本研究依据的领域知识以传统音乐学为核心,还参考了乐种学、乐器学、民族音乐学(即音乐人类学,或延伸之音乐文化学)、少数民族音乐研究、音乐地理学、音乐形态学、音乐分析学、东方音乐研究等领域的知识结构。这之中的若干领域在我国经历了特殊的本土化。
传统音乐学的话语具有明显的本土特点,音乐形态学则更具有东西方类比的意味,对它的基本观念择取如下:对“音乐形态”的分析须区别于西方严肃音乐作品的乐谱分析,克服西方中心主义的倾向,侧重形态背后的场域与文化背景。这种视角有助于阐述音乐的类型划分。中国音乐学院的谢嘉幸教授将音乐形态分为“模式型”和“作品型”,认为“模式型音乐是即兴型音乐活动的产物”,而我国的民族音乐就是模式型音乐的代表,剧种的唱腔、器乐的曲牌,都是特定的音乐模式;作品型音乐则基本对应前文所述专曲专用情况。音乐形态学也曾生发出“民族民间音乐型态学(类型学)”等更细化的领域,这便涉及传统音乐分类的一系列学说。
2.2传统音乐分类学说
学科框架下,音乐分类可基于多个角度,如形态层面的结构、形式、体裁、曲式、风格、模式,乃至社会功能等。而中国传统音乐的分类,根据中央音乐学院杨民康教授的提炼,涉及社会学、传统音乐形态学、文化区与生态学、地理学和民族学的方法角度。这之中最易形成共识的是从社会文化分层视角到形态学视角的“四大类→五大类”分类法,即先分出宫廷音乐(CourtMusic)、文人音乐(LiteratiMusic)、民间音乐(FolkMusic)、宗教音乐(ReligiousMusic)这四类,再将民间音乐分成五类(图5a):民歌(FolkSong)、说唱(SingingAndDancingMusic)、歌舞(SingingAndDancingMusic)、戏曲(TraditionalOperaMusic)、民族器乐(NationalInstrumentalMusic),但这种方法也一直蒙受批评。另有对民间音乐做文化或地理分区的方法,如此次本体设计中用到的三大乐系、二十个支脉的学说等,以及袁静芳教授在《中国乐种学》中直接根据省、市、县等各级行政区划进行的划分。多种角度相互交叉,就容易产生更丰富的层级嵌套关系,突破扁平化限制。
此外,即使是一个明确的乐种,在不同的派系乃至音乐班社(乐社)的传承中,也会逐步分化,犹如“亚种”。因此,对“乐种传承中典型性乐社的考察”“或代表性民间乐社中对重要乐人及某一特殊项目的考察”是本体设计中需要考虑的因素。
2.3传统音乐的非物质文化遗产特征
从音乐人类学来看,传统音乐是文化中的音乐,或“音乐就是文化”,例如,一部分原生态音乐属于“仪式音乐”范畴,与地方民俗、信仰等有紧密关系。仍与严肃音乐相比,传统音乐作为时空中的表演艺术,作为对地域文化传承有重要意义的行为或表现,其本身缺乏实物载体,可以被视作典型的非物质文化遗产。作为非遗的传统音乐的文化价值,除了艺术音乐范畴内的审美性、可听性、娱乐性外,还可能包括其所依托的可视影像呈现的纪录性等特点。但影像志作品(作为“视”类)仅是一种载体,而不是非遗本身。从这个角度出发,则须单列一组bf:Work—bf:Instance类,用于表示作为载体的文献作品的“主题—实例”,并通过“涉及(bf:relatedTo)”语义关系关联到其他领域和馆藏书目、期刊文献名目。而对于传统音乐曲目作品,则另设类表示,详参后文。
以以上分析为据,中国音乐学院图书馆的“中华传统音乐文化资源库”项目结合传统音乐学采风与民族志(影像志)研究方法的特点,以影音采录为主要资源形式,并涵括细化类型如课程、讲座、学术会议、音乐会、音乐节、访谈等,目前已初成关于非遗音乐资料存储与检索的平台,如图2所示。
图2“中华传统音乐文化资源库”前端网页(第一期)
3传统音乐本体模型的设计与阐释
诚如前文所述,本研究对象因其特殊性,难以以现有的某种成熟的元数据或本体为基准加以修改,因此首先结合传统音乐馆藏资源的特点和传统音乐学知识,建立起概念框架,再寻找可复用的本体元素,并组装到此框架中。
3.1从概念框架到本体的设计与复用
注:在目前的概念框架中,乐种、乐器、特藏独立资源是本体的重点,即图中粗体字所在的节点;较大的节点表明该类有具体的名目或受控词汇表由该本体原创;边框为双线的表明该节点为可具体访问的馆藏信息资源,如其中的乐器类可指向中国音乐学院图书馆下属乐器博物馆的乐器实物等资源。
图3中国传统音乐本体模型主要类间的语义关联(仅对象属性)
(4)就地域类,复用了E53_Place(并等价于bf:Place)。其下设中华人民共和国各级行政单位类及其子类,即省、市、县、乡、镇、村,直接复用来自轻量级的places本体中的类(places:Province、City、County、Township、Town、Village),以及Parliament本体中的parl:containedByPlace;属性(各级行政单位)上下级间的包含关系复用ich中的属性,并嵌套在parl:containedByPlace内;另复用geonames中的neighbour属性表示各级行政单位间的毗邻关系。
3.2类和属性的列表(词表)与解释
3.2.1“音乐类型(乐种)”类
该类不同于2.2中的Genre,为此本体方案独创。前文提到乐种的分类通过多角度相互交叉,可突破类标签的扁平化限制。基本分类层级如图4所示。
a社会学层面(MusicType的子类)+形态学层面(FolkMusic的子类)+宗教音乐细分
b民族器乐(狭义的“乐种”)的细分
图4音乐类型(乐种)分类层级
图4a中,宗教音乐的子类有伊斯兰教音乐(IslamicMusic)、佛教音乐(BuddhistMusic)、基督教音乐(ChristianMusic)、道教音乐(TaoistMusic);乐声系(MusicKindOfInstrumentalAndVocalMusic)、乐舞系(MusicKindOfInstrumentalAndDanceMusic)作为综合性乐种的代表,被置于同形态学层面的五大类一个层级的位置;民间音乐五大类+乐声系、乐舞系的并集同时作为“民间音乐(FolkMusic)”的等价类。我国传统音乐类型的当下活态几乎都跳不出民间音乐范畴,而民间音乐的五大类分别对应五种种称(它们是广义的乐种),即民歌—歌种、说唱音乐(曲艺)—曲种、歌舞音乐—舞种、戏曲音乐—剧种、民族器乐—乐种。其中,民族器乐—乐种属于狭义的乐种(图4b),分类体系最健全、层级关系最丰富,这也是出于它们有一个可依靠的物化载体,即东方乐器类,并形成语义关联(参考图3)。五个种类中,除了歌舞音乐和戏曲音乐,其他类都不相交。
对音乐类型的主题词表的编制,参考的语料库范围包括但不限于《中国传统音乐概论》、《中国乐种学》,还对通过馆藏资源标注中新发现的种类进行收编。同时,针对前文2.2部分提到的既有分类受到的批评,采取的应对办法则是,不局限于树形结构,而允许一个下位词从属于不止一个上位词(或一个个体从属于不止一个类),如图5所示。其展示了音乐类型主题词表通过层级关系(P127i_has_narrower_term,即P127_has_broader_term的逆属性)形成的词网络,这个例子即兼容了地理分类和乐种学分类的两种情况。
图5传统音乐类型名目上下位关系的词网络图(有向无环图)
乐种的基本属性还包括:等同关系、起源/消亡时期、分布地域、对应的传统音乐支脉、由…衍变而成、使用…乐器、对应…民族或种族、定义与详释、有…代表曲牌、有…代表曲目。
3.2.2“乐器”类
本案特在“乐器”类中,依上位到下位的顺序逐层设“东方乐器”“中华民族乐器”子类,将其“特化”(specialization)。这是因为此类乐器对乐种的形态多具有决定性作用,并区别于西方交响乐、室内乐中的乐器。乐器条目主要来自于《中国乐器大词典》。以数据属性(dataproperty)标注乐器的声学分类。乐器所涉对象属性的语义关系含“对应…民族或种族”。再根据前文2.1中关于乐种学的立场,最重要的语义关系为“(乐种)使用…乐器”(即乐队编制)及其内嵌子属性“乐种的主奏乐器有”(以下protege的类表达语法中,简称“主奏乐器”)。在本案中,其所涉本体语言还有如下特点。
(1)鉴于乐器是乐种体系划分的基本原则,于是乐器为乐种(狭义)提供存在量词约束,根据protege的类表达式语法,展示如下:
弦索乐—(not主奏乐器some吹管类乐器)and(主奏乐器some(拉弦类乐器)or主奏乐器some(弹弦类乐器))
丝竹乐—(主奏乐器some吹管类乐器)and(主奏乐器some(拉弦类乐器or弹弦类乐器))
吹打乐—(主奏乐器some吹管类乐器)and(主奏乐器some(打击类乐器))
鼓钹乐—(主奏乐器some打击类乐器)
鼓吹乐—(主奏乐器some打击类乐器)and(主奏乐器some吹管类乐器)
鼓吹乐的等价类—唢呐系or笙管系or鼓笛系
唢呐系—主奏乐器some唢呐,笙管系—主奏乐器some(管or笙),鼓笛系—主奏乐器some笛
民族器乐独奏—(乐种使用…乐器exactly1东方乐器)
(2)开发出乐器条目主题词表并做语义化组织,尤其是突出乐器类目的上下位关系,如胡琴的下位类有二胡、四胡、京胡、马头琴、火不思,笛的下位类有曲笛、梆笛等。
(3)鉴于乐种和东方乐器的密切关系,尤其是概念词条通常相互交叠(如“大鼓”“三弦书”“梆子”“八角鼓”“四川扬琴”“常德丝弦”“阿昌族葫芦箫”这些词条既有可能指乐器,也有可能指乐种,乐器本身就可能是乐种的象征),它们共用若干数据属性,如:别称、其他音译名、有代表曲目、名称对应的历史时期、曾用名、以…为命名依据。
3.2.3“民族”类
这里的“民族”主要是东方民族。从民族学的角度对音乐做分类,除了“民族”词条外,语料库另参考的范围包括《中国少数民族音乐概论》,该作的知识结构还充分地借鉴了语言学知识。民族的子类包括“中华民族”和“外国或外国民族”,主要涉及中国境内各民族及周边国家或民族。民族主题词表的一部分(如我国56个民族)直接选自国家图书馆通过中国分类主题词表发布的中国民族表,另一部分是民族支系,通过P127_has_broader_term关联上位词。其他对象属性有:有…代表性乐种,有…代表性乐器(与乐器“对应…民族或种族”互为逆属性)。数据属性有:属于…语系、属于…语族、属于…音乐体系、有…语言、有…文字。
3.2.4“主体\乐人”类
师承关系属性的父类是社交关系,而表现在学者之间的社交关系主要是学术网络中的人际引用关系。对其采用OWL语言的“属性链公理”进行设置,即通过“(音乐学者A)-[是…的作者]->(专题著作或论文X)-[引用]->(专题著作或论文Y)<-[是…的作者]-(音乐学者B)”构成A引用B的关系。
3.2.5“曲目的演出”类
如前文所述,与严肃音乐有所不同的是,传统音乐存在音乐创作的集体性、变异性及一曲多用、非遗活态性等特征。因为该类音乐的形态偏向模式型,同样的曲调、曲牌、唱腔、曲目视作一种模式,但经过不同的人、不同环境下的演出,经过不同的变异,可能前后大相径庭,再者,换用不同的乐器做演绎,也可能会逾越为不同的乐种。所以,对所谓“曲目”常存在界定或区分不清的问题。也就是说,从bf:Work类的定义来看,一首曲调的概念的本质可能会发生变化,即变成另一部作品。为了适应由专曲专用转变为一曲多用的情况,又可使曲目的区分具有唯一性,特将作品与表演交叉融合,提出“曲目的演出”类,而暂不单设“曲目”类。这种划分也兼顾了作为模式型的音乐形态或文化,其内涵更多地考虑了音乐表演的场域和背景的理论要求。另外,在mo本体中,也是将表演视作事件的子类。综上,把曲目和演出绑定起来,同时作为“特藏独立资源_Work”和事件的子类。这样形成的更精细的区分是有意义的。
3.2.6其他类或属性
特藏独立资源之外,则是同为Work的一般馆藏资源bf:Monograph,即文字文献,可细分为专题著作或论文,并通过“研究(vivo:hasResearchArea)”指向文化遗产类型。
最后,通过protege5.5.0版本做本体设计,并通过“本体服务中心”平台发布和共享,生成本体可视化图谱(见图6,可通过扫描此处二维码读取)如下。该元数据本体方案已上传至本体服务中心,并提供可供下载的owl文档。
注:图中深蓝色节点、连边上的标签分别代表复用本体的类和属性,浅蓝色节点则为原创本体资源,黄色矩形标签为数据属性,虚线轮廓的节点和有矩形箭头的虚线表示不同的类共用同一数据属性。就其他符号规则,可参考VOWL:VisualNotationforOWLOntologies。
图6中国传统音乐文化知识库本体可视化图谱
4总结
CONCLUSION
就本研究目前存在的局限性、改进的思路与未来使用去向总结如下。
本案局限性,首先源于领域知识自身固有的问题。音乐类型的名目难以从根本上厘清,对于同名异种、同种异名的现象,学界本身也没有梳理清楚,缺乏共识,且存在学界和民间对之称谓、认知不一致的情况。即质的规定性不够清晰,影响到本体作为一个共享概念模型的有效性和普适性。传统音乐还没有形成一个科学、严密、易形式化操作的分类体系。例如,在局外人看来,外在同样的一个对象(乐器或乐种),不同地域、不同民族社群的局内人对之会有不同的认知、称谓,那么,就成为不同的对象了。这种情况为乐种的划分或乐器的划分造成了较大的困难。再如,不易为曲牌、唱腔或声腔在本体中找准角色与位置,故暂未设置相应的类。如上这些局限与传统音乐的模式型等特征有关。
最后,就该本体方案的使用去向简介如下。首先是希望能够以此案抛砖引玉,推动打通全国音乐图书馆等场景,促进资源共建和语义网建设。其次,一定程度上推演至世界民族民间音乐学知识库的研究,从而不必受制于目前主流的音乐元数据方案的西方化(甚至是“西方中心主义”)和音乐产业化特征的桎梏。再次,保存传统音乐的目的更多的是在继承中革新,即如何将传统音乐的精华元素于今天的中国专业化民族音乐甚至具有民族风格的流行音乐的创作中得到继承与革新,这也意味着,该本体方案未来将尝试向如上领域进行延伸与拓展。
本文的写作尝试同时面向艺术学者和信息管理学者,做出一种跨学科的对谈。而要将对谈能够做到凝练而不乏深度,确是有难度的。因为个人学识与能力有限,还请两路方家包涵与指正。而这样的尝试,于己看来,也是值得的,希望能做一块“垫脚石”,为更高明、有效的研发铺路。