MeSH (Medical Subject Headings):美国国家医学图书馆架构的医学词汇索引

Pubmed几乎是每个做生医相关研究的人员都会查找的数据库,是全世界最大量医学文献的地方,如何索引这个数据库便是美国国家医学图书馆最大的问题。

最早在1954年开始,第一个官方的内部指引Subject Heading Authority List公布了,历经美国国家医学图书馆几十年的时间发展了一套文献索引的方式,这就是所谓的MeSH(Medical Subject Headings),是一套非常细致的索引系统,目的是帮每一篇论文能做更精致的标注,在查找时可以更加的精准,从1963年Medical Subject Headings包含了5700个标目,到2015年已经扩增到27455个。

基本上MeSH记录由三部分组成:Descriptors, Qualifiers, Supplementary Concept Records

Descritptors主题词,或翻译为叙词

这类型的MeSH纪录中是最重要的,总共有四大类,除了第三类以外的Descriptors字汇都可以形成树状关系。这四类分别是:

Main Headings:主干主题词
Publication Characteristics:出版特征词
Check Tags:经过几次的修改,许多check tags慢慢被纳入到Main Headings的树状结构中
Geographics: 主要用来区别地理信息的主题词

Qualifiers又被称作subheading,用来辅助Descriptors的叙述,共有82个主题的Qualifiers,用来补充或是精准heading下面的概念。

Supplementary Concept Records

又叫做Supplementary Chemical Records(SCRS),主要用来索引化学分子、药物和罕见疾病。

最近美国国家医学图书馆跟进web 3.0 所谓的linkded data的数据保存机制,将MeSH的数据已RDF的数据型态公布,甚至也提供自然语言处理的工具MeSH on Demand,自动辨识你文献中跟MeSH相关的字符串 。真的是非常厉害!对于想要处理医学文献的自然语言处理相关分析是很大的利器!

滚动至顶部