海洋科学数据元数据标准和规范
元数据是描述数据及其环境的数据。它不仅可以帮助数据生产单位有效地管理和维护空间数据,建立数据文档,还可以提供有关数据生产单位数据存储、数据分类、数据内容、数据质量等信息,并能够帮助用户了解数据及其是否能满足需求。因此,元数据是使数据充分发挥作用的重要条件之一。对此,对元数据标准的研究也是整个数据共享的核心内容之一。
中国科学院在 21 世纪初已经把 “科学数据库及其应用系统”作为科学院信息化建设的重要基础设施,纳入信息化建设的重大项目,其中标准与规范的建设、数据资源和系统平台建设成为科学数据库的三大建设任务,在标准与规范中首要的一点就是研究科学数据库元数据标准体系的建立。同样,中国科技部正在进行的国家科学数据共享工程项目,对标准和规范的研究也是列在各项研究的前面。依托于上述的项目,海洋信息元数据标准化工作也在标准的统一、共享标准的制定、国际标准采用等方面有所侧重。
从国际看,目前主要有三个组织进行元数据标准的研究工作,分别是欧洲标准化组织(CEN/TC 287)、美国联邦地理数据委员会(FGDC)以及国际标准化组织(ISO/TC211)。表 32 给出了这三个组织的元数据内容对比。
表 32 元数据内容组成
在 CEN/TC 287 中,元数据分为数据集标识信息、数据集综述信息、数据集质量元素、空间参照系信息、范围信息、数据定义、分类信息、管理信息、元数据参考以及元数据语言,并用这 10 个部分来描述数据集,每一部分又有各自的组成元素。FGDC 的元数据内容由标识信息、数据质量信息、空间数据组织信息、空间参照系信息、实体和属性信息、发行信息以及元数据参考信息 7 部分组成。包含 7 个主要子集和 3 个次要子集,共有460 个元数据实体和元素。它是目前国际上许多元数据标准体系的蓝本。在 ISO/TC 211中,元数据的内容标准由两大部分组成,一部分是标准化部分,它是用户必须遵循的标准; 另一部分是信息化部分,它用于通过提供示例等方法来帮助指导用户,以便更好地理解标准。标准化部分是元数据内容的核心,它定义了描述地理信息所必需的规则以及元数据的元素组成,共由 8 个部分组成,依次为标识信息、数据质量信息、数据集继承信息、空间数据表示信息、空间参照系信息、应用要素分类信息、发行信息以及元数据参考信息。这三个组织虽然在元数据标准的制定上各有一套体系,但都遵循着一些相似的原则,即保留一些必需元数据信息,对一些辅助的信息用可选项进行描述。表 33 列出了元数据的必选项,表 34 列出了元数据的可选项。
表 33 各种元数据标准中元数据必选项的说明
表 34 各种元数据标准中元数据可选项的说明
通过对 CEN/TC 287 、FGDC 和 ISO/TC 211 等元数据标准体系的分析以及对整个数字地理信息标准化理论前提的研究,我国已经制定了一套国家基础地理信息系统(NFGIS)元数据标准草案。该体系由 12 个部分组成,其中标准化内容包括标识信息、数据质量信息、数据集继承信息、空间数据、表示信息、空间参照信息、实体和属性信息、发行信息以及元数据参考信息 8 个部分。另外还有 4 个部分是标准化部分中必须引用的信息,它们为引用信息、时间范围信息、联系信息及地址信息。
在上述元数据标准的基础上,根据海洋信息的特点,研究制定海洋元数据标准。海洋信息元数据标准规定海洋科学数据共享元数据的内容、提供有关数据采集源、采集单位、数据标示、覆盖范围、数据质量、空间和时间模式、空间参照系统、信息分发和用户限制等信息。
在本数据集成平台的设计中,在参考我国元数据标准草案的基础上,针对不同的数据种类,设计具体的元数据内容(表 35)。
表 35 各种类型数据集的元数据内容设计
续表
了解元数据,可以看下下面这篇文章,是一个90后的小美女写的,通俗易懂。\x0d\\x0d\近几年,随着90后群体逐步迈入职场,逐渐出现在社会大众的视野当中。本文出自一名90后美女程序员之手,他们是极具个性的一代,他们这代技术人的新奇想法,正是现代企业需要的创新源泉\x0d\\x0d\关于作者:\x0d\\x0d\龚菲普元信息大数据产品部90后美女程序员\x0d\\x0d\公司大数据治理正做得风生水起,各种核心产品在国内市场数一数二,终极大BOSS们将数据治理方面的经验总结成文章,篇篇干货,堪称经典。(有兴趣的同学可以看下公众号的历史文章,不过据说有一批干货文章还没发表出来,敬请期待)。作为尚未正式入职的小菜鸟,我也只能在极浅的层面发表一些我自己的看法\x0d\\x0d\我将文章分为两大部分,第一部分介绍元数据概念,第二部分从几个方面说明元数据管理的应用,最后一部分总结一下元数据的重要性,仅代表我的一些个人观点,还请各位前辈们不要见笑。\x0d\\x0d\一、元数据什么鬼\x0d\\x0d\我入职的时候刚好赶上公司的元数据产品升级换代,同事们的研发气氛正火热,作为新入职菜鸟,总得先了解一下元数据概念,不然日后怎么和小伙伴们愉快地玩耍,于是查找国内外相关材料:\x0d\\x0d\一段时间之后有了一些知识积累,才发现用“关于数据的数据”来给元数据下定义确实再准确不过了,但同时也略微抽象,新人难于快速理解,待到上周我们数据治理专家从心理学的角度来阐述元数据之后,我终于也算理解了元数据到底是个啥,今天也算是站在“巨人”的肩膀上,用一种更简单的方式来回答“元数据究竟是什么”这个问题\x0d\\x0d\元数据是关于数据的描述,存储着关于数据的信息,为人们更方便地检索信息提供了帮助。咦检索信息小蝌蚪找妈妈的过程也是一个检索信息的过程,是不是看懂这个故事就能懂元数据是什么了\x0d\\x0d\池塘里有一群小蝌蚪,他们看见鲤鱼妈妈在教小鲤鱼捕食,就迎上去,问:“鲤鱼阿姨,我们的妈妈在哪里”\x0d\\x0d\此时蝌蚪们意识到,不对啊,我们的数据库里不是应该存在着一张Mother表吗,但是蝌蚪们竟然对这张表一无所知,不知道有什么字段,也不知道各个字段对应的具体数值:\x0d\\x0d\鲤鱼妈妈说:“你们的妈妈有四条腿,宽嘴巴。你们到那边去找吧!”\x0d\\x0d\鳄鱼笑着说:“你们的妈妈有两只大眼睛,披着绿衣裳。你们到那边去找吧!”\x0d\\x0d\乌龟笑着说:“我不是你们的妈妈,你们的妈妈肚皮是白的,到前面去找吧。”\x0d\\x0d\青蛙听了“各各”地笑起来,说“唉!傻孩子,我就是你们的妈妈呀”\x0d\\x0d\整个过程可以看成是Mother这张表逐步完善的过程,数据来源分别是鲤鱼妈妈、鳄鱼妈妈和乌龟妈妈,如下图所示:\x0d\\x0d\对蝌蚪们最终获取到的信息进行进一步抽象,就可以形成一种“元数据”,该元数据描述了Mother这张表的结构:\x0d\\x0d\刚才不是说元数据能为检索信息提供帮助吗,那是不是也说明元数据能为小蝌蚪找妈妈提供帮助我们将在第二部分试着对这个故事进行改编,详细介绍小蝌蚪利用元数据快速找到妈妈的过程。\x0d\\x0d\二、元数据管理的应用\x0d\\x0d\通常一款元数据管理工具应具备元模型设计、元数据采集、元数据分析、数据地图展现等核心功能,我们试着改编小蝌蚪找妈妈这个故事,在改编的过程中理解这几个核心功能,前提是我们假设所有动物共同构成了一个庞大的数据体系,小蝌蚪们Mother的具体数据已经存在于此体系之中(鲤鱼系统、鳄鱼系统、乌龟系统)。\x0d\\x0d\1、元模型设计\x0d\\x0d\先解释一下元模型。如果说元数据是对数据的描述,那么元模型就是对元数据的描述,是对元数据的进一步抽象,三者的关系如下图所示:\x0d\\x0d\再讲一下元模型设计的过程。首先获取到系统中的所有元数据,将这些元数据汇总并进行合理规划,进一步抽象成元模型,从一定角度来说,可以把这个抽象的过程看成元模型设计的过程。\x0d\\x0d\元模型定义了各种元数据的结构以及元数据之间的关系,是元数据管理的基础,也就是说,如果我们想用元数据帮助小蝌蚪找妈妈,需要先设计出合理的元模型。下图是我试着给它们设计出的元模型(对于企业来说,真正的元模型设计过程非常复杂,受多方面因素影响):\x0d\\x0d\我们认为小蝌蚪的妈妈(Mother)由若干个属性(Property)组成,每个属性的名称用Name表示,每个属性的类型用Type表示。\x0d\\x0d\现在元模型有了,下一步就是按照这个设计好的元模型采集小蝌蚪们需要的元数据信息,也就是我们常说的元数据采集。\x0d\\x0d\2、元数据采集\x0d\\x0d\设计好元模型之后,元数据管理工具能通过全自动的方式采集到企业所需要的元数据,在这个故事中,按照我设计好的元模型,元数据管理工具的元数据采集结果应该如下图所示:\x0d\\x0d\小蝌蚪们拿着这份元数据再去针对性地检索关于妈妈的信息,就能一步到位,将目标直接锁定到青蛙,整个故事将因元数据的出现而成功改写。\x0d\\x0d\说明:在真实的企业数据环境中,数据与元数据是已经存在于系统之中的,元数据管理就是根据企业现有的元数据设计出适合企业的元模型,然后将系统之中的元数据按照元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的。\x0d\\x0d\3、元数据分析\x0d\\x0d\a、血缘分析\x0d\\x0d\假设动物园园长慢羊羊正管理着整个动物园的数据信息,有一天园长发现自己这里有个数据不对,需要找出错误数据的提供者并追究责任,那么这个错误数据来自于哪个动物家庭呢挨家挨户去敲门核对数据显然不够高效,元数据管理工具的血缘分析功能会自动帮助园长分析这个错误数据的上游路径,比如这个数据是由鲤鱼妈妈交给鳄鱼妈妈,鳄鱼妈妈再提交给园长的,那么此时园长只需要去敲鲤鱼和鳄鱼家的门就可以了。\x0d\\x0d\b、影响分析\x0d\\x0d\数据终于更正了,此时园长需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的动物家庭就可以了,这让园长十分苦恼,整个动物园的数据传递这么复杂,怎么判断哪个家庭会受到这个数据的影响呢,元数据管理工具的影响分析功能会分析出这个数据的影响范并能用可视化的方式展现出来,园长只需要通知受影响的动物家庭就可以了。\x0d\\x0d\c、数据地图展现\x0d\\x0d\随着动物园规模的日益扩大,入住的动物种类日益增多,有一天园长想了解动物园的整体情况,有多少动物家庭,哪个家庭和哪个家庭比较要好,哪个家庭和哪个家庭又从来没有联系,此时元数据管理工具的数据地图可以帮助园长获取到他想要的信息,数据地图展现功能可以通过可视化的方式,让园长对整个动物园的情况了如指掌,帮助它更好地观察整个动物园的情况。\x0d\\x0d\三、元数据的重要性\x0d\\x0d\在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。\x0d\\x0d\写在最后:\x0d\\x0d\公司正在研发针对企业级用户的数字化企业云平台,并且全面公开研发文档与技术细节,由我担任的群主的微信讨论群也会对架构设计过程进行公开,欢迎对此感兴趣的前辈和朋友入群,与我们共同讨论,共商“云”是。感兴趣或者想学习相关技术,可在百度中搜EAii了解。
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
DC元数据规范最基本的内容是包含十五个元素的元数据元素集合,用以描述资源对象的语义信息,已成为IETF RFC2413、ISO15836、CEN/CWA13874、Z3985、澳大利亚、丹麦、芬兰、英国等国际、国家标准。
DC元数据已包括由一系列扩展元素、元素修饰词、编码体系修饰词、抽象模型、应用纲要等规范组成的标准体系,成为一般性资源描述、特别是互联网语义信息描述(Semantic Web)的基础性规范。这套体系还在不断地发展、完善中
DC有简单DC和复杂DC之分。简单DC指的是DC的15个核心元素如题名、主题等。与复杂的MARC格式相比,DC只有15个基本元素,较为简单,而且根据DC的可选择原则,可以简化著录项目,只要确保最低限度的7个元素(题名、出版者、形式、类型、标记符、日期和主题)就可以了。复杂DC是在简单DC的基础上引进修饰词的概念,如体系修饰词(SCHEME)、语种修饰词(LANC)、子元素修饰词(Subelement),进一步明确元数据的特性。特别是通过体系修饰词,把MARC的优点和各种已有的分类法、主题词表等控制语言吸收进去。
家谱的封面
家谱的形式
家谱的主体形式,叫世系图,长这个样子
世系图分为宝塔式图谱、树系图谱、线性图谱和牒记式图谱(无图,曾以是以文字叙述先人事迹)
树系图谱
线性图谱
再来说说,为什么要写家谱呢?
目的是记载自己家族的光辉史,以及记载家族的历史和发展。
一般是家族发展到一定程度的时候,家中德高望重的人提出,我们是不是该写家谱了。大家一致决定好,然后如果祠堂的钱够,那就直接从祠堂拿钱,开始写家谱。如果祠堂没钱,那就大家捐钱。如果是家族第一本家谱,那就由德高望重的人决定辈分什么的。
现在有很多人没有家谱了,可能是由于迁移或者其它原因造成的,如果是这种情况,那么可以两种办法解决,一是回到原来的祖籍,请家谱;另一种就是重修家谱。
家谱的内容都有什么?
一、写清楚姓氏源流。
意思就是同一族姓的来源、迁移等。中国上下五千年,渊源古老,如果没有家谱,后人就很难搞清楚。每套《家谱》都认清自己姓氏源流,这样才能世世代代承继,也能将族系根缘流传千百年。
二、写清楚堂号。
堂号名称一般取自于郡号名,或者是史祖自创。
一般来说,堂号多取自于郡号名,郡是秦、汉时期对行政区域的建置,郡号名又取自于郡名,或诸侯国名,地方府、州、县名。也有很多姓氏同为一个堂号的,比如:王,胡这两个姓的郡望都是“清河堂”。
自创的,例如:杨氏的“四知堂”寓意“天知、地知、我知、子知”的为人风范。很多重修家谱的情况,只能用自创堂号。
三、家训和家族的历史。
很多家谱中,都记录了许多治家教子的名言警句,流传到后世了,比如我们熟悉的颜氏家训、朱子治家格言等。
家训大致包括了以下内容:
(一)、注重家法、国法
(二)、和睦宗族、乡里
(三)、孝顺父母、敬长辈
(四)、合乎礼教、正名分
(五)、祖宗祭祀、墓祭程序
四、有功绩和品行之人的传纪。
一般分为:列传、内传和外传等。列传是记录家族中有功绩男子的传记;内传是记录家族中有品行女子的传记;外传是记录家族中已出嫁有品行女子的传记。传记中多配有该人的画像或关于该人的故事图画,用词以真实平朴为重,最忌溢美之词。这也是评价一部“家传”水平高低与否的重要标准。
五、家族中人的诗文著作。
以家族中名人所写的诗文著作为主要内容,也收集本族人与外人的书信来函,以及经籍、表策、碑文、书札等,有的还有版画、肖像画、版本作品、名家书法、歌曲等。在这部分进行续补时,更需精心挑选,慎重录入,把最有价值和代表性的文献传给后代。
六、祖先、老照片、风水图等。
这里的祖先、老照片好理解,其中风水图主要只祠堂图、墓土。祠堂是供奉先人的地方,所以在记载和刊载建物版图、描绘实状,甚至详记地理方位。有的族谱中还要把故居和村庄图放上。
最后补充一点,女孩可以上家谱吗?
古时认为,女孩是嫁给别人的就是别人家的人了,不过也有例外,就是终身不嫁的女性,就有机会上家谱,当然女孩子是没有权力拥有家谱的。不过现代修家谱也有例外,因为有可能小辈都是女孩子了,所以也有女孩保存家谱、传家谱和修家谱的情况出现。
元数据是“关于数据的数据”,存在于电子信息环境中,用于描述资源的属性,呈现其关系,支持资源发现、管理与有效利用(徐筱红,2006),是对所采集到的数据的说明。一般来说,它有两方面的用途:首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据;其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在塔里木河流域生态环境动态监测及辅助决策支持系统综合数据库系统中,元数据机制主要支持以下几类系统管理功能:①描述哪些数据在综合数据库中;②定义要进入数据库中的数据和从数据库中产生的数据;③记录并检测系统数据一致性的要求和执行情况;④衡量数据质量。
(一)元数据分级与特征
1元数据分级
基本元数据:提供地理数据源基本文档所需要的最少的元数据元素集。
完全元数据:提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。
2元数据特征
(1)名称:赋给元数据实体或元素的标记。
(2)标识码:计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为:XXXXXX
前2位为元数据子集,2位数字码;中间2位为元数据实体/独立元素,2位数字码;后2位为元数据实体包含的元素,2位数字码。
(3)定义:对元数据实体和元素的说明。
(4)性质:说明元数据实体或元素是否总是出现,或有时出现的描述符。描述符分别为:M-必选;C-一定条件下必选;O-可选。
(5)条件:说明何种条件下元数据子集、实体或元素是必选的。如果对所说明的条件成立,那么该子集、实体或元素就是必选的。
(6)最大出现次数:指定元数据实体或元素在实际使用时,可能重复出现的最大次数。只出现一次的表示为“1”,重复出现的表示为“N”。
(7)数据类型:表示元数据元素的一组不同的值,例如,“文本”、“整型”、“短语”、“坐标串”、“实型”和“日期”。
(8)值域:指定每个元数据元素的取值范围。“任意长文本”表示所述内容不受限制,实型数和基于代码的整型数等只能使用一个限定的(闭合的)值域内的值。
(二)元数据库主要内容
塔里木河流域生态环境动态监测系统的元数据包括数字影像图、数字栅格图、数字高程模型、数字线划图等。大部分数据都有相应的国家或行业元数据标准规范,有国家或行业标准的按照标准规范采集;没有规范的,按照元数据的分级特征进行定义。主要包括有关数据源、数据分层、成果归属、空间参照系、数据质量(包含数据精度和数据评价)、数据更新、图幅接边等方面的信息(周骋等,2006)。其主要内容描述如下:
(1)标识信息:是唯一标识数据集的元数据信息。包括数据集名称、发布时间、版本、语种、摘要、现状、空间范围(地理范围、时间范围)、表示方式、空间分辨率、信息类别。
(2)数据质量信息:是数据集质量的总体评价。包括数据集内容完整性说明、数据集在概念、值域、格式和拓扑关系等方面的一致性程度、位置精度(空间位置绝对精度和相对精度)、时间精度(表示时间的精确程度、现势性、有效性)、属性精度(数据集属性分类正确性、属性值的精度和正确性)、数据质量保证措施。
(3)数据字典信息:包含数据集应用、数据源及生产数据集时所用工艺方法等信息。
(4)空间参照系信息:数据集使用的空间参照系统的说明。包括基于地理标识的空间参照系统、基于坐标的空间参照系统。
(5)内容信息:描述数据集的主要内容。包括主要要素类型名称及相应的属性名称、影像数据集内容概述(波长、波段、灰阶等级、合成处理方式)、栅格数据集内容概述(格网尺寸、格网尺寸单位、格网行列数、格网起始点坐标)。
(6)元数据参考信息:包括元数据发布或更新的时间,以及建立元数据单位的联系信息。
以上6类由两个公共数据类型联系,公共数据类型包括:
(1)覆盖范围信息:数据集的空间范围(经纬度坐标、地理标识符)、时间范围(起始时间、终止时间)、垂向范围(最小垂向坐标值、最大垂向坐标值、计量单位)。
(2)负责单位联系信息:与数据集有关的单位标识(负责单位名称、联系人、职责)和联系信息(电话、传真、通信地址、邮政编码、电子信箱地址、网址)。
(三)元数据入库
元数据信息是一个纯文本文件,在生产时采集了多项数据,它是与图形数据、属性数据紧密联系在一起的,按照每幅图一个文本文件存储。为了实现数据库系统中元数据与数据体的集成化管理,以及元数据与数据体的一体化相互检索查询,需将元数据信息空间化。采取的技术方法就是将元数据文件与图幅结合表联系起来,将每一幅图形的区域作为一个目标对象,所采集的多项元数据信息作为其属性项,构成一个以图幅结合表为基础的矢量格式元数据集。同图形数据坐标系统一样,元数据采用地理坐标系统,整个流域则以Coverage格式整体存储,数据处理完成后全部导入到Oracle9i数据库中。
写家谱,可以按时间顺序,以及家谱的特点描述来写。 范例:它是用了三块宽四十厘米左右的布料才缝合成现在的宽度的,不象现在的布料,要多宽有多宽,可见当时的条件特别差,老祖宗们也太不容易了;二是根据家谱中的纪录看,凡是家族中的男子,不论辈份高低,去世后他的名字都有纪录,而女性成员却只纪录了姓氏;三是在每个名字的后面都有“之神位”三个字,在名子和姓氏前面都有一个“讳”字,也许是用这种方式表示对他们的尊敬吧。
我们的家谱还有一幅精美的对联,它很特别,它表述的是“二十四孝”,说它是对联,它却没有一个字,完全是由精美图画组成。这可能是祖宗们留给后人的家训。用大人门的话说,就是老祖宗对我们的不言之教吧!如果老祖宗能把他们的事迹(简历)用文字、图像传下来,或者把他们的照片也留给我们,让我们后世子孙了解他们走过的生活道路的同时还能目睹他们的尊容哪该有多好啊!
海洋科学数据元数据标准和规范
本文2023-11-26 14:27:37发表“资讯”栏目。
本文链接:https://www.lezaizhuan.com/article/557881.html