2 TEIヘダー
Contents
- « 1 TEIの基礎構造
- » 3 コアモジュール
- Home | 目次
この章では,本文や,その元資料,符号化の方法,改訂の歴史など, 符号化に関わるあらゆる情報を記録する際の問題点を紹介する. そのような記録(ドキュメンテーション)は,電子テキストを利用す る研究者や,それを処理するソフトウェア,さらには図書館や文書 館で当該電子データの目録を作成する際にも必要となる. この様な情報は,いわば,印刷物に付属するタイトルページに相当 するものである. また,電子データに,慣習上付属する,マニュアルやコードブック に相当するものともいえる.
- 「ファイル解説」:要素fileDescに記述される情報で,電子ファイルその ものに関する書誌情報が含まれている. この情報を元に,利用者は電子テキストを適切に引用すること が可能となる. また,図書館や文書館では,この情報を元に,カタログデータ を作成することができる. ここでいう「電子ファイル」とは,当該TEIヘダーが記録の対 象とする全ての文書を示している. これらの文書は,離れた場所にあることもあるだろう. このファイル解説では,電子化された文書の,元の資料に関す る情報を収録うることも可能である. このファイル解説に関する要素については,後述する 2.2 ファイル解説 で解説をする.
- 「符号化解説」:要素encodingDescに記述される情報で, 電子テキストとその元資料の関係が記されている. 例えば,当該テキストは,転記の際に正規化されたのか,どの ように正規化されたのか,元資料にある曖昧な記述はどのよう に符号化されたのか,元資料のどのレベルで符号化や分析がさ れたのか,という情報が含まれている. この符号化解説に関する要素については,後述する 2.3 符号化解説 で解説する.
- 「プロファイル解説」:要素 profileDescに記述される情報で, テキストの分類や周辺情報が記されている. 例えば,テーマ,制作時の状況,入力した人物,またはその製 作に関連した人物などの情報である. このような情報は,コーパスなどの言語情報を集めたものでは, 高階な構造になる. また,統制された記述表現を使うことが求められ,また,本文 中のテキストから,分類や出自を示すために参照されることに なる. このプロファイルについての記述は,各種のテキストの自動処理で 利用されることになるだろう. このプロファイル解説に関する要素については 2.4 プロファイル解説で解説する.
- 「改訂解説」:要素 revisionDescに記述される情報で, 当該電子テキストの改訂の歴史が記録されている. 改訂の歴史は,「版管理」や,当該ファイルの経歴に関する問 い合わせの際に重要となる. 改訂解説に関する要素については 2.5 改訂解説で解説する.
THIヘダーは,大変巨大で複雑なデータにもなり得るし,とても簡 単なデータにもなりうる. ある分野(例えば,コーパスや発話の書き起こし)では,より詳細な 情報が記述されることになるだろう. 本ガイドラインでは,(TEIヘダーにおいて特別な手続きをとらずに 使うことができる)中心的な要素と,スキーマ中に付加的に導入さ れることで使用できる要素を定義している. コーパス向けのモジュールでは,付加的な要素を使うことができる ようになる(詳細は15 Language Corporaを参照).
次節では,TEIヘダーの全体の構造とそこに含まれる情報を概説す る. それ以降では,TEIヘダーの中心的な要素について詳しく解説する. 本章の最後にある 2.6 最小構成と推奨構成 では,TEIヘダーの最小限の構成について解説し,それが図書 館で使われる書誌情報とどのように関連するかを解説する.
- » 2.2 ファイル解説
- Home | 目次
2.1 TEIヘダーの構成TEI: TEIヘダーの構成¶
2.1.1 構成要素TEI: TEIヘダー and its Components¶
要素teiHeaderは,電子テキスト中の前付け( 4.5 前付け) とは別のものと考えるべきである. コーパスや叢書といった,複数の部分からなるテキストでは, 複数のヘダーが必要となることがある. この詳細は,以下で解説する. しかし,TEI準拠のテキストでは,一般に,要素 teiHeaderは1つしか取らず, 続く要素textも1つである
-
teiHeader
全てのTEI準拠テキストが伴う,電子版のタイトルページ
を構成する,記述的・宣言的情報を示す.
type 当該ヘダーが付与される文書の種類を特定する. 例えば,コーパス,または独立テキスト.
- fileDesc 電子ファイルに関する完全な書誌情報を示す.
- encodingDesc 電子テキストとその元資料との関係を示す.
- profileDesc 書誌情報的ではない詳細な解説を示す.例えば,言語や特 殊言語,生成されたときの状況,参加者など.
- revisionDesc ファイルの改訂履歴を示す.
<fileDesc>
<!-- ... -->
</fileDesc>
<encodingDesc>
<!-- ... -->
</encodingDesc>
<profileDesc>
<!-- ... -->
</profileDesc>
<revisionDesc>
<!-- ... -->
</revisionDesc>
</teiHeader>
<fileDesc>
<!-- ... -->
</fileDesc>
</teiHeader>
<teiHeader type="corpus">
<!-- corpus-level metadata here -->
</teiHeader>
<TEI>
<teiHeader type="text">
<!-- metadata specific to this text here -->
</teiHeader>
<text>
<!-- ... -->
</text>
</TEI>
<TEI>
<teiHeader type="text">
<!-- metadata specific to this text here -->
</teiHeader>
<text>
<!-- ... -->
</text>
</TEI>
</teiCorpus>
- « 2.1.1 構成要素
- » 2.1.3 モデルクラス
- Home | 目次
2.1.2 内容モデルTEI: 内容モデル¶
- 自由記述
- 殆どの要素では,単純な自由記述を,いずれかのレベルで認め ている. 多くの要素が,散文(段落により構成される),または,散文を 含む,より特殊な要素を含むことができる. 本章で使われる「散文記述」とは,要素pで示される段落で構成され ているものと理解すべきである. それに対して「句」とは,段落は構成しない,句レベルとして ある文字データで構成されていると理解すべきである. 段落や句,リストなどについての詳細は,3.1 段落 を参照のこと.
- グループ要素
- 要素名がStmtで終わるもの で(例えば editionStmtやtitleStmtなど), 一般には,構造化されたある情報を示す特別な要素である. 例えば,書誌情報を示す情報の場合,Stmtは 国際標準書誌記述(ISBD)に相当する要素の名前でも使われてい る. 4 多くの場合,グループ要素は,特別な要素の代わりとして, 散文を取ることができる. 従って,符号化する人は,情報を散文で記述するのか,また は構造化された形式で記述するかを,選択することができる.
- 宣言
- 要素名がDeclで終わるもの(例 えばsubjectDeclやrefsDeclなど)で,電子テキストがど のように符号化されたかの情報を記録するものである. 一般には,あるコード表現されることになる. 例えば,複雑な構造や記述を示すコードをしめす宣言で表現さ れる. 複数のテキストと関連する宣言を,ヘダー内で1回宣言するこ とで,各テキスト中に繰り返さずに済ませることが出来る. テキスト(またはその下位部分)で属性declsを使うことで,宣言部分との相互 参照を構成することもできる. この詳細は,15.3 Associating ContextualInformation with a Text を参照のこと.
- 記述
- 要素名がDescで終わる (例えばsettingDescやprojectDescは, 散文の記述を取ることができる. 必ずしも,見出しや下位要素により,構造化する必要はない.
- « 2.1.2 内容モデル
- Home | 目次
2.1.3 モデルクラスTEI: モデルクラス in the TEI Header¶
TEIヘダーでは,メタデータに関する多くの要素を定義しているが, 網羅的であるということではない. 個別のプロジェクトでは,TEIヘダーには定義されていない,また はより特殊な構造を持った要素をといった,特別なメタデータを使 いたいということもあるだろう. そのような時には,符号化する人は, 23.2 Personalization and Customization で解説するようなカスタマイズにより,要素を追加することも可能 である. TEIではクラスシステムを導入し,容易にカスタマイズすることが 可能で,その交換も容易に実現することができる.
- model.applicationLike: ヘダー中で,ソフトウェア固有の情報を記録する要素をまとめる.
- model.catDescPart: TEIヘダーの要素をまとめる.
- model.editorialDeclPart: 要素editorialDecl中で使われ,複数回出現可能 な要素をまとめる.
- model.encodingPart: 要素encodingDesc内で使われ,複数回出現可能な 要素をまとめる.
- model.profileDescPart: 要素profileDesc内で使われ,複数回出現可能な要素をまとめる.
- model.headerPart: TEIヘダー内で複数回出現する,上位レベルの要素をまとめる.
- model.sourceDescPart: 要素 sourceDesc内で,複数回出現可能な要素をまとめる.
- model.textDescPart: テキストを分類するための要素をまとめる.例えば,状況パラメータの項目など.
- « 2.1 TEIヘダーの構成
- » 2.3 符号化解説
- Home | 目次
2.2 ファイル解説TEI: ファイル解説¶
本節では,要素fileDescについて解説する. この要素は,要素 teiHeaderの1番目の子要素である.
機械可読なテキストの書誌情報は,印刷された書籍や論文などのテ キストの書誌情報と似た構造を持っている. ファイル解説向けの要素では,既存の図書館向け書誌情報と似たモ デルを採用している. 従って,利用者は,規格化された書誌情報を電子テキストに付加す ることが可能となり,容易にその書誌情報を作ることができる. ヘダー中に記録される書誌情報の書き方と,テキスト中に記録するこ とが可能な書誌情報の書き方は同じになっている(一般的な書誌情 報の参照については 3.11 書誌項目の記述または参照を参照のこと). 詳しい解説は2.7 書誌情報に関する注釈を参照のこと.
- titleStmt 作品や知的内容に責任のあるもののタイトルに関する情報をまとめる.
- editionStmt 版に関する情報をまとめる.
- extent 電子・非電子テキストのおよその大きさを任意の単位で示す.
- publicationStmt 電子テキストなどの出版や頒布に関する情報をまとめる.
- seriesStmt 出版されたシリーズの情報をまとめる.
- notesStmt 当該書誌情報の他の場所に記録されているテキストに関する注釈をまとめる.
- sourceDesc 電子テキストが作られた元テキストの情報を示す.
<fileDesc>
<titleStmt>
<!-- ... -->
</titleStmt>
<editionStmt>
<!-- ... -->
</editionStmt>
<extent>
<!-- ... -->
</extent>
<publicationStmt>
<!-- ... -->
</publicationStmt>
<seriesStmt>
<!-- ... -->
</seriesStmt>
<notesStmt>
<!-- ... -->
</notesStmt>
<sourceDesc>
<!-- ... -->
</sourceDesc>
</fileDesc>
</teiHeader>
<fileDesc>
<titleStmt>
<!-- ... -->
</titleStmt>
<publicationStmt>
<!-- ... -->
</publicationStmt>
<sourceDesc>
<!-- ... -->
</sourceDesc>
</fileDesc>
<!-- other optional parts of the header here -->
</teiHeader>
- » 2.2.2 版ステートメント
- Home | 目次
2.2.1 タイトルステートメントTEI: タイトルステートメント¶
- titleStmt 作品や知的内容に責任のあるもののタイトルに関する情報をまとめる.
要素titleには,電子作品の,主要なタイトルと,そ の他のサブタイトルなどが記録される. 当該作品が複数のタイトルを持つ場合(例えば,異なる言語による タイトル)には,この要素は必要なだけ複数回使用される. 電子作品が,既存のテキストから作られている場合には,その元の 作品にあるタイトルも収録し,それを明確に分けて示すことが,強く 推奨される. 例えば,「電子的に転記」「電子版」などと記述しておくなど. これにより,引用やカタログ上で,電子作品と元のテキストを,同 時に,明確に分けて示すことが可能になる.
電子作品は,外部名(ファイル名やデータセット名)を持つことがあ る.また,コンピュータシステム上で使われる参照番号を持つこと もある. この種の名前は,頻繁に変わることがある. 例えば,コンピュータシステム上で新しくコピーが作られた場合な どである. この種の名前は,特定のコンピュータシステムに強く依存すること から,システム間では簡単に相互利用をすることは難しい. さらにやっかいなのは,当該電子作品は,複数のファイルから構成 されている可能性もある. 以上の様子から,本ガイドラインでは,この種の名前は,要素 title の内容には使わないことを,強く推奨する.
タイトルを記述する際の,有用なガイドラインとして, the Anglo-American Cataloguing Rules(Gorman and Winkler, 1978の第25章)や(訳注:多文化に対応していない記述),国家 レベルの書誌情報に関するガイドラインを参照することができる.
要素respStmtよりも,特化した内容を占め る要素として author , sponsor , funder , principalがある. これらの要素は,作品や知的内容などに責任を持つ人物の責任表示を示 すために使われる.
この種の情報は,タイトルステートメント中に,必要なだけ記述す ることができる. 最低限,当該テキストの著者と,(場合によっては)当該電子ファイル を作った人物は,記述する必要がある. コーパスの場合には,当該コーパスを作った人物も記録すべきであ る. 当該テキストの転記者や,修正者,スポンサー,支援者などの名前 は,選択的に記録することができる. データ入力をした責任者の名前は,その人物が,当該ファイルの制 作にあたり,知的な責任がないとされる場合には,記録する必要は ない.
もし知的責任のある関係者が,著者,支援者,中心的な研究者でな い場合には,要素respStmtに記録する. この要素には,2つの下位要素があり,ひとつは要素nameで,個人または団体の名前 を示し,もうひとつは要素respで,ここに知的責任の内容が示され る. 要素respの内容については,特に推奨するものはない. 以下にある例のように,知的責任の内容を明確に示すことが肝要で ある.
名前は,個人名または団体名のどちらも取り得る. 名前は,公で引用できるようなものにしておく. 一般には,省略のない名前を示すことになるだろう. 5
<title>Capgrave's Life of St. John Norbert: a
machine-readable transcription</title>
<respStmt>
<resp>compiled by</resp>
<name>P.J. Lucas</name>
</respStmt>
</titleStmt>
<title>Two stories by Edgar Allen Poe: electronic version</title>
<author>Poe, Edgar Allen (1809-1849)</author>
<respStmt>
<resp>compiled by</resp>
<name>James D. Benson</name>
</respStmt>
</titleStmt>
<title>Yogadarśanam (arthāt
yogasūtrapūṭhaḥ):
a digital edition.</title>
<title>The Yogasūtras of Patañjali:
a digital edition.</title>
<funder>Wellcome Institute for the History of Medicine</funder>
<principal>Dominik Wujastyk</principal>
<respStmt>
<name>Wieslaw Mical</name>
<resp>data entry and proof correction</resp>
</respStmt>
<respStmt>
<name>Jan Hajic</name>
<resp>conversion to TEI-conformant markup</resp>
</respStmt>
</titleStmt>
2.2.2 版ステートメントTEI: 版ステートメント¶
- editionStmt 版に関する情報をまとめる.
印刷物の場合,「版」は,あるマスター原稿から作られた同じ複製 物をまとめて表現するための用語で,出版者によって頒布されるも のである. 「版」は,頒布される複製物が変更されたときには,一般には変更 はないが,マスター原稿に修正が加えられた時に変更されるもので ある.
電子テキストの場合,「マスター原稿」というものを想定するのは 相応しくない. 理由は,電子テキストは,印刷されたテキストよりも,容易に変更 され,容易に複製を作ることができるからである. それにも関わらず,機械可読なテキストにおいても,本質的な変更 が加えられ,それが確定した際には,その状態を「版(edition)」 という言葉で表現することもできるだろう. 本ガイドラインでは,この「版(version)」の同義ととして, 「レベル(level)」や「公開(release)」も使われる. 「改訂(revision, update)」は,版を変える必要のない,小さ な変更が施された場合に使われる.
改訂(update)ではなく,新しい版(edition)と見なされるには,ど の程度の本質的な変更が必要であるかを規定する決まりなどは存在しな い. 本ガイドラインが提示できる一般的な規則としては,新しい版には, 符号化の仕方や表示法の変更ではなく,知的内容に重要な変更が含 まれている場合を想定している. 例えば,テキスト中に分析的なタグが付加された場合には,それは 新しい版と見なされ,符号化方式が別の方式に自動的に変換された ような場合には,それを新しい版とは見なさないことになる. 文字コードが変わったり,ファイルの構成が変更したり,スペルミ スを修正したり,内容の構成を変更したり,出力形式を変更した場 合などは,新しい版になるものではない. 新しい情報(例えば,品詞情報や,音声,字形,外部参照など)が付 加された場合には,新しい版になる.
もちろん,境界線上のものは必ず存在し,これは任意の問題となる. 簡単に言えば,新しい版と判断するのであれば,そうする,という ルールとなる. 電子ファイルのオリジナルに対する版ステートメントは,任意であ る. しかし,続いて公開されたものについては,版ステートメントは必 須となる. それでも,検証器はこれを確認する必要はない.
版や改訂などの変更の大きさにかかわらず,電子ファイルにおける 全ての変更については,ヘダーファイルに必ず記録されるべきであ る(詳細は2.5 改訂解説 を参照).
要素editionの内容には,「版(edition, version)」 に相当する表現が,数値や,日付や,その違いを示す,例えば「新 版」「改訂版」などが記録される. 版ステートメントで使われる日付は,全て,要素dateの内容 に記される. 要素editionにある属性n は,当該版を示す公式な識別子(例えば,版番号)を示すために使わ れる.
版に関する責任表示を示すために,要素respStmtを複数回使うことができる. この要素を使い,例えば,改訂をした主体や,付加された付録など に関わる個人や団体の名前を示すことになる. 要素respStmtについての詳細は,3.11 書誌項目の記述または参照 を参照のこと.
<edition n="P2">Second draft, substantially
extended, revised, and corrected.</edition>
</editionStmt>
<edition>Student's edition, <date>June 1987</date>
</edition>
<respStmt>
<resp>New annotations by</resp>
<name>George Brown</name>
</respStmt>
</editionStmt>
- « 2.2.2 版ステートメント
- » 2.2.4 出版・頒布など
- Home | 目次
2.2.3 ファイルのタイプと大きさTEI: ファイルのタイプと大きさ¶
書籍では,媒体の種類や大きさといった,外形についての情報は, 書誌情報として大変重要である. このような,印刷物を想定して作られた,書誌情報の記述規則は, 電子媒体においても適応されることがある. 電子ファイルは,それを記録する媒体から独立して存在したもので ある. また,その媒体が,例えば,磁気テープやCDROM,フロッピーディ スク,大型コンピュータ上のファイルなど,どのようなものであれ, 電子ファイルは,同じ知的内容を持っている. さらに,本ガイドラインは,可搬性を高めることを目指しているこ とから,機械に依存した情報をヘダーファイルに収録することは, 適切ではない.
例えば,この種の情報として「ファイル型」というものがある. 従来の図書館における目録規則では,「データ」と「プログラム」 は分けて記述されてきた. しかしながら,例えば,検索ソフトウェア中にあるハイパーテキス トにおいて,この区別は極めて難しい.
- バイトで示す(例えば,4000 16ビットバイト) (訳注:16ビットバイトとは,1バイトを16ビットとする方法).
-
範囲示す.例えば,以下のような表現.
- 1Mb以下
- 1Mbと5Mbの間
- 6Mbと10Mbの間
- 10Mb以上
- 論理単位で示す(例えば,語,文,引用,段落など).
- 物理的な単位で示す(例えば,ブロック,ディスク,テープな ど).
量の単位には,規格化された記号を使うことが推奨される (http://physics.nist.gov/cuu/Units/binary.html を参照).
<extent>4.2 MiB</extent>
<extent>4532 bytes</extent>
<extent>3200 sentences</extent>
<extent>5 90 mm High Density Diskettes</extent>
2.2.4 出版・頒布などTEI: 出版・頒布など¶
- publicationStmt 電子テキストなどの出版や頒布に関する情報をまとめる.
- publisher 書誌項目の出版や頒布に責任のある団体の名前を示す.
- distributor テキストの頒布に責任を持つ人物または団体の名前を示す.
- authority 電子データの作成に責任のある個人または団体の名前を示す. 出版者や頒布者ではない.
「出版者(publisher)」とは,個人または団体のことで,当該ファイルの版を公 にする主体のことである. 「頒布者(distributor)」とは,個人または団体のことで,そこか ら当該テキストの複製を得ることができる主体のことである. テキストが,正規には出版されてはいないものの,それを入手可能 な状態にしている個人や団体は,「責任者(reliase authority)」 とする.
- pubPlace 書誌項目が出版された場所の名前を示す
- address 郵便配達情報を示す.例えば,出版者,組織,個人の住所など.
-
idno
書誌項目を特定する標準的・非標準的数値を示す.
type 当該数値の分類を示す.例えば,ISBNなど. -
availability
テキストの利用可能性に関する情報を示す.例えば,その使
用や頒布,著作権に関する制限など.
status 当該テキストの,現在の利用可能性を表すコードを示す. - date 日付を示す.
出版者,頒布者,責任者として記録された日付や場所については, 最新の情報であることに注意すること. 当該テキストの制作が,出版した日付とは異なる場合には, 制作日を,このステートメントではなく,要素profileDescに記載すべきである. その他の有用な日付(例えば,データを収集した日付)は,注釈とし て記録する.
13 名前,日付,人物,場所 に記載されているモジュールを使い,名前や,日付,住所などにつ いて記録する,付加的な要素の詳細については 3.5 名前,数値,日付,略語,住所を参照のこと.
<publisher>Oxford University Press</publisher>
<pubPlace>Oxford</pubPlace>
<date>1989</date>
<idno type="ISBN">0-19-254705-4</idno>
<availability>
<p>Copyright 1989, Oxford University Press</p>
</availability>
</publicationStmt>
<authority>James D. Benson</authority>
<pubPlace>London</pubPlace>
<date>1984</date>
</publicationStmt>
<publisher>Sigma Press</publisher>
<address>
<addrLine>21 High Street,</addrLine>
<addrLine>Wilmslow,</addrLine>
<addrLine>Cheshire M24 3DF</addrLine>
</address>
<date>1991</date>
<distributor>Oxford Text Archive</distributor>
<idno type="ota">1256</idno>
<availability>
<p>Available with prior consent of depositor for
purposes of academic research and teaching only.</p>
</availability>
</publicationStmt>
- « 2.2.4 出版・頒布など
- » 2.2.6 注釈ステートメント
- Home | 目次
2.2.5 シリーズステートメントTEI: シリーズステートメント¶
- 独立したもの(出版物)が,互いに共通して持つ事柄から,グルー プ化されるもの.個別のタイトルや,グループのタイトルもある. 個々の出版物には,番号が付けられることもある.
- エッセイ,講義,論文などが,似た系列として,一連に出版さ れる,2巻以上の構成になるもの.
- 一連に出版されるものに,連番が振られているもの.
要素idno には,当該出版物と関連するIDとなる番号が記される. 例えば,ISSNや,特定の出版番号など(この場合,アラビア数字を 使うことが推奨されている.例えば,6.19.33となる.VI/xix:33とはしない). 属性typeは,その番号の種類を示すため に使われ,例えば,ISSN番号であることを示すには,属性値をISSNとする.
<title level="s">Machine-Readable Texts for the Study of
Indian Literature</title>
<respStmt>
<resp>ed. by</resp>
<name>Jan Gonda</name>
</respStmt>
<idno type="vol">1.2</idno>
<idno type="ISSN">0 345 6789</idno>
</seriesStmt>
- « 2.2.5 シリーズステートメント
- » 2.2.7 元資料解説
- Home | 目次
2.2.6 注釈ステートメントTEI: 注釈ステートメント¶
- 性格,範囲,芸術形式,目的.また,ジャンルや,知的範疇な ど. 例えば,「テキスト種:新聞の署名記事,SF,西部劇,推理小 説」など. この種の情報は,要素profileDescに記録される( 2.4 プロファイル解説を参照).
- 当該ファイルの内容について,評価の対象には成らないような 解説や事実のまとめ. 例えば,「1963年の春から夏にかけて,17都市に住む英語話者 に対してなされた,一般的なテーマについてのインタビューを 書き起こしたもの」など. この種の情報は,要素profileDescに記録される( 2.4 プロファイル解説 を参照).
- 電子テキストの元資料に関する書誌情報の詳細. 例えば「1623年ノートンファクシミリ版(The Norton Facsimile)からの転記」など. この種の情報は,要素sourceDescに記録される( 2.2.7 元資料解説を参照).
- 当該電子テキストやその元資料の,出版や頒布に関する詳細. 例えば,その利用に関する制限や,利用時の公式用語など. この種の情報は,要素publicationStmtに記録される( 2.2.4 出版・頒布などを参照).
- 当該ファイルに関連づけられた文書公開番号. 例えば,「ICPSR研究No.1803」「OTAテキストNo.1243」など. この種の情報は,適切な要素publicationStmt内にある要素idnoに記録される. ISSNやISBNなどの,国際的な同意が得られている規格番号も, 同様に,扱われるべきである.
- 電子テキストの内容や制作環境に関する日付. 例えば「1983年記録」「インタビュー,テイク1,1989年春; テイク2,1990年1月」など.
- 当該ファイルの作成に,技術上,管理上,助言する立場などか ら関わった人物や団体において,責任表示には出ていないもの の名前. 例えば,「マーク・コーエンによる歴史に関するコメンタリ」など.
- 付加的なメディアにある当該電子ファイルの利用に関する情報 や,記録の利用状況について,まだ示されていない,情報など. 例えば,「ユーザマニュアルは,11ページ立ての章から成る, ルーズリーフ形式」など.
- 作品や要旨で使われる言語. 例えば,「本文は英語,要旨は仏語と独語」など.
- ISDSにより,逐次刊行物に振られたユニークな名前.
- 元資料を記述したものや,当該電子作品の制作や利用の際に関 連する出版物のリスト. 例えば,「Burrows (1987)で使われるテキスト」など.
2.2.7 元資料解説TEI: 元資料解説¶
- sourceDesc 電子テキストが作られた元テキストの情報を示す.
<p>Born digital.</p>
</sourceDesc>
- model.biblLike 書誌情報を含む要素をまとめる.
- model.sourceDescPart 要素sourceDesc内で,複数回出現可能な要素をまとめる.
- model.listLike リスト相当の要素をまとめる.
- bibl 厳密でない構造を持つ書誌情報の引用を含む.下位要素で明示されていたり, いなかったりする.
- biblStruct 構造を持った書誌情報を示す.下位要素として,書誌情報を示す 要素が決められた順番で出現する.
- listBibl 書誌項目引用のリストを示す.
<bibl>The first folio of Shakespeare, prepared by
Charlton Hinman (The Norton Facsimile, 1968)</bibl>
</sourceDesc>
<biblStruct xml:lang="FR">
<monogr>
<author>Eugène Sue</author>
<title>Martin, l'enfant trouvé</title>
<title type="sub">Mémoires d'un valet de chambre</title>
<imprint>
<pubPlace>Bruxelles et Leipzig</pubPlace>
<publisher>C. Muquardt</publisher>
<date when="1846">1846</date>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
- biblFull 厳密な構造を持つ書誌情報を示す.TEIのファイル記述の全要素は,ここに記述される.
- msDesc 単一の識別可能な手書き資料の解説を示す.
- scriptStmt 発話テキストで使われている台本の詳細に関する引用を示す.
- recordingStmt 発話テキストの転記の元になる録音,録画されたものを示す.
- listNym 別名,すなわち,一般的に使われている名前のリストを示す.
- listOrg 特定可能な団体に関する情報を示す解説のリストを示す.
- listPerson 特定可能な個人やグループに関する情報のリストを示す.例えば,言語交流 の参加者や,歴史資料中で参照される人物など.
- listPlace 場所のリストを示す.選択的に,場所間の(包含関係ではなく)関連性を 示すリストが続く.
- « 2.2.7 元資料解説
- Home | 目次
2.2.8 他のファイルから得られたファイルTEI: 他のファイルから得られたファイル¶
- fileDesc
- Aにあるファイル解説の内容は,要素biblFullを使い, Bの要素sourceDesc の中に埋め込まれる.
- profileDesc
- Aにあるプロファイル解説の内容は,原則,そのままBの中に埋 め込まれる. 個別に拡張することも可能である.
- encodingDesc
- Aにある符号化解説の内容は,Bの中に埋め込んでも良いし, (殆どの場合は)埋め込まなくても良い. 符号化解説の内容は,当該電子ファイルと元資料との関係を示 すものであるから,AとBとの関係における符号化についての情 報を記録すればよい. Aと,その元資料との関係は,Aのヘダーにある情報を見れば, 解ることでもある. 実際には,Aを元資料としたBに対して,新しくencodingDescを作り上げた方が便利である.
- revisionDesc
- Bは,新しく作られる電子ファイルであることから,新しい改 訂解説が作られることになる. 但し,Aにある要素revisionDescにある情報を使った 方がよいと思われる際には,主立った版改訂の情報は,Aと関 連して示した良い.
- « 2.2 ファイル解説
- » 2.4 プロファイル解説
- Home | 目次
2.3 符号化解説TEI: 符号化解説¶
- encodingDesc 電子テキストとその元資料との関係を示す.
- projectDesc 制作過程に関する情報も含めて,電子ファイルが作られた目的の詳細を示す.
- samplingDecl コーパス等を作成する際,テキストを標本化する原理や手法に 関する,散文による解説を含む.
- editorialDecl テキストを符号化する際に適用される編集方針や編集方法の詳 細を示す.
- tagsDecl タグ付けに関する詳細な情報を示す.
- refsDecl 標準的な参照の作られ方を示す.
- classDecl 当該テキスト中で使用されている分類コードを定義する,ひと つ以上の分類法を示す.
- appInfo TEIファイルを編集したソフトウェアに関する情報を示す.
- » 2.3.2 サンプリング宣言
- Home | 目次
2.3.1 プロジェクト解説TEI: プロジェクト解説¶
- projectDesc 制作過程に関する情報も含めて,電子ファイルが作られた 目的の詳細を示す.
<projectDesc>
<p>Texts collected for use in the
Claremont Shakespeare Clinic, June 1990.</p>
</projectDesc>
</encodingDesc>
- « 2.3.1 プロジェクト解説
- » 2.3.3 編集方法宣言
- Home | 目次
2.3.2 サンプリング宣言TEI: サンプリング宣言¶
- samplingDecl コーパス等を作成する際,テキストを標本化する原理や手法に 関する,散文による解説を含む.
- 個別サンプルの大きさ.
- 選択の手法.
- サンプルを取り出す範囲の大きさ.
- サンプル化の対象.
<p>Samples of 2000 words taken from the beginning of the text.</p>
</samplingDecl>
<p>Text of stories only has been transcribed. Pull quotes, captions,
and advertisements have been silently omitted. Any mathematical
expressions requiring symbols not present in the ISOnum or ISOpub
entity sets have been omitted, and their place marked with a GAP
element.</p>
</samplingDecl>
サンプリング宣言は,それが該当する複数のテキスト中の各ヘダーで, その内容を繰り返し記録する必要はない. 各テキストにおいては,属性declsを使い, サンプリング宣言で記されている内容へ相互参照を実現すればよい. この詳細は,15.3 Associating Contextual Information with a Text で解説する.
- « 2.3.2 サンプリング宣言
- » 2.3.4 タグ付け宣言
- Home | 目次
2.3.3 編集方法宣言TEI: 編集方法宣言¶
- editorialDecl テキストを符号化する際に適用される編集方針や編集方法の詳細を示す.
- correction
-
-
correction
テキスト中に施された修正の状況や方法を示す.
status 当該テキストに施された修正の実行状況を示す. method 当該テキストに施された修正の方法を示す.
当該テキストは,入力の際に,修正されているか否か. 修正されているとすれば,その跡は3.4 簡単な編集上の変更にあるよう, 記録されているのか. そのような修正の対象となったものは,省略,切り捨て, 疑わしいカ所,別な読み,間違い,反復などのどれか.
-
correction
テキスト中に施された修正の状況や方法を示す.
- normalization
-
- normalization
元資料が電子形式に変換される施される正規化の程度を示す.
source 正規化を施した責任者を示す. method 当該テキストに施された正規化の方法を示す.
当該テキストは,一般的ではない綴りや,方言などが正規 化されたのか. そうであれば,その痕跡は,3.4 簡単な編集上の変更にある様な手法 で明記されているのか. 正規化の方法には,責任付けられるものがあるのか. 属性valueに, 3.5.3 数値や計測値にあるよう な,規格化された値が付与されるとき,どのような方針や 書式が採られているのか.
- normalization
元資料が電子形式に変換される施される正規化の程度を示す.
- quotation
-
-
quotation
元資料にあった引用をどのように編集したのかを示す.
marks テキスト中の内容として,引用符をそのまま残したかどうかを示す. form 当該テキスト中に引用符がどのように示されているかを示す.
疑問符はどのように処理されるのか. アポストロフィーや引用符は区別されるのか. それは,どのように区別されるのか. 引用符は,本文の一部として保持されるのか,またはマー クアップに置き換えられるのか. 引用符が入れ子になっている際,記号の使用については, 何か規則はあるのか. 当該ファイルの内容は,利用の際に変更がないのか.その確認はされてもいないのか.
-
quotation
元資料にあった引用をどのように編集したのかを示す.
- hyphenation
-
-
hyphenation
元資料にあるハイフンが,符号化される場合にどのように扱われたかを示す.
eol 行末のハイフンをそのまま残したかどうかを示す.
ソフトハイフン(印刷上のハイフン)か,ハードハイフン (元々のハイフン)か. 元のテキストにはなかった行替えがある場合,行末にある ハイフンにはどのような扱いをされているのか. ソフトハイフンが外されている場合,それが行替えやペー ジ立てに影響を与えているかどうか.
-
hyphenation
元資料にあるハイフンが,符号化される場合にどのように扱われたかを示す.
- segmentation
-
- segmentation 当該テキストを分割した基準を示す.例えば,文,音単位,書記層など.
当該テキストは,どのように分割されているのか. テキストの小単位を作る要素sやsegが使われている場合,これら はどのようなものとして使われているか.
- stdVals
-
- stdVals 標準的な日付や数値を示す形式を特定する.
殆どの場合,規格化された値を伴う属性( whenかwhen-iso) には,W3CまたはISOのデータ型が使われる. それでは不都合の場合,属性値にある値を生む手法を解説 するために,この要素が使われる.
- interpretation
-
- interpretation 転記されたテキストに付加された,分析または解釈情報の範囲を示す.
分析的・解釈的な情報,すなわち,客観的なものではなく, 本質的に論争点を含む情報があるか. そのような情報を含む場合,それはどのように作られたの か. また,どのように符号化されているのか. 素性構造モジュールが使われている場合,要素 fsdDecl( 18.11 素性システム宣言)は使われているか.
<interpretation>
<p>The part of speech analysis applied throughout section 4 was
added by hand and has not been checked.</p>
</interpretation>
<correction>
<p>Errors in transcription controlled by using the
WordPerfect spelling checker.</p>
</correction>
<normalization source="http://szotar.sztaki.hu/webster/">
<p>All words converted to Modern American spelling following
Websters 9th Collegiate dictionary.</p>
</normalization>
<quotation marks="all" form="std">
<p>All opening quotation marks represented by entity reference ODQ; all closing
quotation marks represented by entity reference CDQ.</p>
</quotation>
</editorialDecl>
複数箇所に共通して当てはまる,編集方針を示す宣言は,各テキスト のヘダー中で,繰り返し示される必要はない. 各テキスト中で属性declsを使うことによ り,相互参照を示すことができる. この詳細は,15.3 Associating ContextualInformation with a Textにある.
- « 2.3.3 編集方法宣言
- » 2.3.5 参照システム宣言
- Home | 目次
2.3.4 タグ付け宣言TEI: タグ付け宣言¶
- 転記されたテキスト中に出現する要素の名前空間.
- 当該テキスト中にどの程度その要素が出現するのか. この情報は,データ交換の際,内容を検証するときに使うこと ができる.
- ある要素の使い方についての,他の場所では記録されることの ない情報.
- 関連する要素全てに当てはまる,初期値としての表示方法..
要素tagsDeclは,一連の要素renditionを選択的に取り, 続いて,一連の要素tagUsageを伴い,TEI文書の一番上位にあ る要素text内で使われている要素についての 情報が記される. 要素renditionは,ユニークな識別子が与えられる. 要素tagUsageには,少なくとも1つの要素namespaceが伴う.
- 非公式の,散文による記述.
- 規格化されたスタイル言語,例えば,CSSやXSL-FOによる記述.
- 各プロジェクトで定義した形式言語による記述.
- 要素tagUsageに属性renderを付与することで,関連する要 素全ての表示方法の初期値を示す.
- グローバル属性renditionは, どの要素にも付与することが可能で,これにより,表示方法を 指定し,さらに,下位にあるこの属性全ての値を上書きするこ とが出来る.
<rendition xml:id="style1">
... description of one default rendition here ...
</rendition>
<rendition xml:id="style2">
... description of another default rendition here ...
</rendition>
<namespace name="http://www.tei-c.org/ns/1.0">
<tagUsage gi="p" render="#style1"> ... </tagUsage>
<tagUsage gi="hi" render="#style2"> ... </tagUsage>
</namespace>
</tagsDecl>
<!-- elsewhere in the document -->
<p>This paragraph,mostly rendered in style1, contains a few words
<hi>rendered in style2</hi>
</p>
<p rendition="#style2">This paragraph is all rendered in style2</p>
<p>This is back to style1</p>
- free
- 自由記述.
- css
- CSS
- xslfo
- XSL-FO
- other
- 利用者が決めた,描出記述言語.
<rendition xml:id="center" scheme="css">text-align: center;</rendition>
<rendition xml:id="small" scheme="css">font-size:
small;</rendition>
<rendition xml:id="large" scheme="css">font-size: large;</rendition>
<rendition xml:id="x-large" scheme="css">font-size: x-large;</rendition>
<rendition xml:id="xx-large" scheme="css">font-size: xx-large</rendition>
<rendition xml:id="expanded" scheme="css">letter-spacing: +3pt;</rendition>
<rendition xml:id="x-space" scheme="css">line-height: 150%;</rendition>
<rendition xml:id="xx-space" scheme="css">line-height: 200%;</rendition>
<rendition xml:id="red" scheme="css">color: red;</rendition>
</tagsDecl>
<docTitle rendition="#center #x-space">
<titlePart>
<lb/>
<hi rendition="#x-large">THE POEMS</hi>
<lb/>
<hi rendition="#small">OF</hi>
<lb/>
<hi rendition="#red #xx-large">ALGERNON CHARLES SWINBURNE</hi>
<lb/>
<hi rendition="#large #xx-space">IN SIX VOLUMES</hi>
</titlePart>
<titlePart rendition="#xx-space"> VOLUME I.
<lb/>
<hi rendition="#red #x-large">POEMS AND BALLADS</hi>
<lb/>
<hi rendition="#x-space">FIRST SERIES</hi>
</titlePart>
</docTitle>
<docImprint rendition="#center">
<lb/>
<pubPlace rendition="#xx-space">LONDON</pubPlace>
<lb/>
<publisher rendition="#red #expanded">CHATTO & WINDUS</publisher>
<lb/>
<docDate when="1904" rendition="#small">1904</docDate>
</docImprint>
</titlePage>
要素tagsDeclは,要素renditionを規定する必要はない. 但し,少なくとも要素namespaceをひとつ含む必要がある. この要素の中には,要素tagUsageが1つ以上あり,そこで,要素teiHeaderと関連する,一番上位の要素textの下位にある要素を指定するこ とができる. 7 要素tagUsageは,当該要素がテキスト中で出現 する回数も記録するとが出来る. これは,属性occursの値として記録さ れる. また,当該要素の内容としてある散文で,使用に関する付加的な情 報を記録することも可能である.
</tagUsage>
</tagUsage>
- « 2.3.4 タグ付け宣言
- » 2.3.6 分類法宣言
- Home | 目次
2.3.5 参照システム宣言TEI: 参照システム宣言¶
- refsDecl 標準的な参照の作られ方を示す.
- cRefPattern URIへの標準的参照を変形する,表現・変形パタンを示す.
- refState/ 標石要素の手法として定義されている標準的な参照の構成要素をひとつ示す.
- 散文形式.
- 一連の,正規表現とXPathの組み合わせ.
- 一連の標石を使ったもの.
1つの文書中で複数の参照スキームを使用する場合には,TEIヘダー 中に複数の要素refsDeclを使うことができる. 但し,現行の提案では,複数ある参照スキームの整合性を確認する ことは考慮されていない.
- » 2.3.5.2 検索置換法
- Home | 目次
2.3.5.1 散文法TEI: 散文法¶
参照スキームは,要素refsDeclにおいて,散文形式で示すこと ができる. この場合,どの要素に参照情報が書かれているの か,それは,属性値としてあるのか,または要素内容としてある のかが,明示されるべきである. また,その参照情報が利用されるときに,そこにある文字列をど のように解釈すべきかの規則も,明示されるべきである. 散文形式で示された定義は,自動的には処理することができない ことから,自動処理を前提とする場合には,この方法は推奨され ない.
<p>The <att>n</att> attribute of each text in this corpus carries a
unique identifying code for the whole text. The title of the text is
held as the content of the first <gi>head</gi> element within each
text. The <att>n</att> attribute on each <gi>div1</gi> and
<gi>div2</gi> contains the canonical reference for each such
division, in the form 'XX.yyy', where XX is the book number in Roman
numerals, and yyy the section number in arabic. Line breaks are
marked by empty <gi>lb</gi> elements, each of which includes the
through line number in Casaubon's edition as the value of its
<gi>n</gi> attribute.</p>
<p>The through line number and the text identifier uniquely identify
any line. A canonical reference may be made up by concatenating the
<gi>n</gi> values from the <gi>text</gi>, <gi>div1</gi>, or
<gi>div2</gi> and calculating the line number within each part.</p>
</refsDecl>
- « 2.3.5.1 散文法
- » 2.3.5.3 標石法
- Home | 目次
2.3.5.2 検索置換法TEI: 検索置換法¶
- cRefPattern URIへの標準的参照を変形する,表現・変形パタンを示す.
- « 2.3.5.2 検索置換法
- Home | 目次
2.3.5.3 標石法TEI: 標石法¶
標石法とは,「標石タグ(要素)」(詳細は3.10.3 標石要素)を使う方法で, この要素により,参照に必要な情報が記録される. この手法は,先述した検索置換法と同じ参照機能を提供するもので はない. しかし,この手法を使うことで,よりシンプルな記述が可能 になるだろう.
-
refState/
標石要素の手法として定義されている標準的な参照の構成要素をひとつ示す.
ed 当該標石要素が従う版を示す. unit 当該標石要素の場所で起こる変化の種類を示す. delim 参照構成要素の開始を表すデリミタを示す. length 参照構成要素の固定長を示す.
例えば,‘Matthew 12:34’という参照文字列には,3つの参照情報が 含まれている. 単位bookの値は,‘Matthew’である. 単位chapterの値は,‘12’である. 単位verseの値は,‘34’である. 標石要素を使うと,上記3種類の単位の値が変化する地点を示すこ とができる. 8 例えば,‘Matthew 12:34’を見つける場合,ソフトウェアは,ま ず,テキストを全て読み込み,上記3種類の単位の値が変化する 地点を見つけることになる. そして,上記3種類の単位の値が,同時に必要な状態となったと き,そこが所望する地点となるのである. 場合によっては,そのような地点は複数存在することもあるだろ う.
属性delimとlengthは,参照の構成要素を指定するために 使われ,その値は,これまでに紹介してきた手法と同じように指 定される. この他の属性は,どの要素milestoneが,変化を検査する対象となるかを 指定するためのものである. どの要素milestoneも,状態の変化 を示すもので,属性unitを伴う. 属性edは選択的に付与され,この値は, 対応する要素refStateと一致するもの である. 新しい状態の値は,要素milestone に属性nを付与することで,示すことも できる. もし,状態の変化が暗に分かるものであれば,属性nは使われないかもしれない.
<refState
ed="first"
unit="page"
length="2"
delim="."/>
<refState ed="first" unit="line" length="3"/>
</refsDecl>
<milestone ed="first" unit="line"/>
標石要素を使った参照スキームは,考え方は単純であるが,一般的な SGML/XMLパーサでは,この機能をサポートしていない. 従って,この要素の整合性を検証するという作業は,符号化する人の負 担となる.
複数のテキスト中で使用される参照システム宣言は,各テキストのヘ ダー内で繰り返し宣言される必要はない. 各テキストの属性declsで,参照システム 宣言への相互参照を実現することができる. この詳細は,15.3 Associating Contextual Information with a Text にある.
- « 2.3.5 参照システム宣言
- » 2.3.7 ソフトウェア情報要素
- Home | 目次
2.3.6 分類法宣言TEI: 分類法宣言¶
- classDecl 当該テキスト中で使用されている分類コードを定義する,ひとつ以上の分類法を示す.
- taxonomy テキストの分類法を,書誌情報を参照したり,または構造化さ れた分類法を 示すことで,定義する.
- category 記述的な分類項目を示す.利用者が定義した分類法の元に上位 分類項目中に 入れ子にしてもよい.
- catDesc テキスト分類や分類法における分類項目を示す.簡単な散文形式またはTEI の textDescで使用される状況パラメータで示される.
<bibl>
<title>Dewey Decimal Classification</title>
<edition>Abridged Edition 12</edition>
</bibl>
</taxonomy>
<bibl>Brown Corpus</bibl>
<category xml:id="b.a">
<catDesc>Press Reportage</catDesc>
<category xml:id="b.a1">
<catDesc>Daily</catDesc>
</category>
<category xml:id="b.a2">
<catDesc>Sunday</catDesc>
</category>
<category xml:id="b.a3">
<catDesc>National</catDesc>
</category>
<category xml:id="b.a4">
<catDesc>Provincial</catDesc>
</category>
<category xml:id="b.a5">
<catDesc>Political</catDesc>
</category>
<category xml:id="b.a6">
<catDesc>Sports</catDesc>
</category>
</category>
<category xml:id="b.d">
<catDesc>Religion</catDesc>
<category xml:id="b.d1">
<catDesc>Books</catDesc>
</category>
<category xml:id="b.d2">
<catDesc>Periodicals and tracts</catDesc>
</category>
</category>
</taxonomy>
- « 2.3.6 分類法宣言
- » 2.3.8 モジュール別の宣言
- Home | 目次
2.3.7 ソフトウェア情報要素TEI: ソフトウェア情報要素¶
- このファイルが以前に開封され,編集されたことがあるかどう か,どの版がその対象になったかを,ソフトウェアが知ること ができる.
- ソフトウェアを主因とする問題の原因を探るために,どのソフ トウェアが最後に当該ファイルを編集したのかを知ることがで きる.
- 当該ファイルを編集した時のソフトウェアに付いての情報を, 利用者が知ることができる.
- ソフトウェアが,編集したファイル中の,どの要素に注目して いるのかを宣言することができる. これにより,他のソフトウェアや編集者は,どの場所にある変 更点に中止すべきかが分かるようになる.
- appInfo TEIファイルを編集したソフトウェアに関する情報を示す.
-
application
当該文書に作用するソフトウェアに関する情報を示す.
ident 当該ソフトウェアの識別子を示す.これは,版番号や表示名とは異なる. version 当該ソフトウェアの版番号を示す.識別子や表示名とは異なる.
要素applicationは,当該ファイルに対して,ソフト ウェアが採るべき状態を示すものである. この要素は,クラスatt.datable のメンバーであり,日付や時間などの情報を属性で示す. 属性identと属性versionは,ソフトウェアとそのバージョン をユニークに指定するために使われる (例えば,ImageMarkupTool 1.5). これは,ソフトウェアがファイルを処理する際に,毎回,新しい 要素applicationを付加するということではな い.
<application version="1.5" ident="ImageMarkupTool" notAfter="2006-06-01">
<label>Image Markup Tool</label>
<ptr target="#P1"/>
<ptr target="#P2"/>
</application>
</appInfo>
- « 2.3.7 ソフトウェア情報要素
- Home | 目次
2.3.8 モジュール別の宣言TEI: モジュール別の宣言¶
これまでに紹介してきた要素は,どのスキーマでも使うことができ るものである. スキーマの中に,他のTEIモジュールを特別に導入した場合には, それぞれのモジュールに特化した構成要素が使えるようになる. これらの詳細は,各モジュールでの解説で示されるので,ここでは 簡単に紹介する.
要素fsdDeclは,「素性モジュール」が組み込まれた ときに使うことができる. この要素により,「素性宣言」(詳細は18.11 素性システム宣言)が記 録され,そこでは,文書中で使われる「素性構造」(詳細は18 素性構造)が示される.
要素metDeclは,「韻文モジュール」が組み込まれた ときに使うことができる. この要素により,テキスト中で使用される韻律記法スキームが記録 される. この詳細は,6.3 韻分析 にある. この要素は,散文または,一連の要素metSymから構成される.
要素variantEncoding は,「校合モジュール」が組み込まれたときに使うことができる. この要素により,テキストの異なりを符号化する手法が記録される. この詳細は,12.2 校本とテキストの関連付けにある.
2.4 プロファイル解説TEI: プロファイル解説¶
- profileDesc 書誌情報的ではない詳細な解説を示す.例えば,言語や特殊言 語,生成されたときの状況,参加者など.
- textDesc 状況パラメータにより,テキストの情報を示す.
- particDesc 言語交流における,特定可能な発話者,声,その他の参加者を示す.
- settingDesc 言語交流が行われた状況設定を,散文または一連の要素settingに より示す.
2.4.1 作成TEI: 作成¶
2.4.2 言語TEI: 言語¶
要素languageは,文書中で使われる各言語毎に 用意される. この要素には,属性identを使い, vi.i言語の識別にある適切 な言語識別子を付与するべきである. とりわけ,文書中で,拡張言語識別子が,属性xml:langの値として使われている際に, この情報は重要である.
<language ident="fr-CA" usage="60">Québecois</language>
<language ident="en-CA" usage="20">Canadian business English</language>
<language ident="en-GB" usage="20">British English</language>
</langUsage>
2.4.3 分類TEI: 分類¶
- 国際的な分類法として知られている,例えば,デューイ分類法, 国際十進分類法,コロン分類法,LC分類法など,図書館や文書 を扱う仕事で広く使用されている分類法を参照する.
- キーワードの一覧を示す.例えば,英国図書館やLCの目録で使 われているようなもの.
- 当該資料が関連する領域で認められている,特化したテキスト 分類法を参照する. この種の分類法では,15.2.1 The Text Descriptionで解説するよ うな,状況依存パラメータが使われてるかもしれない. また,15.2.2 The Participant Descriptionで解説 するような,人口統計要素が使われているかもしれない.
要素keywordsは,キーワードリストを示すことで,各 テキストを分類するために使われる. このキーワードは,テキストのテーマ,主題,形式,日付などを示 すものである. スキームによっては,キーワードの順番が重要なことがある. 例えば,大分類から小分類へと示される場合である. キーワードリスト自体が,構造化されていることがある. 本ガイドラインでは,この件に関して,推奨するものはない. 可能であれば,そのようなキーワードには,英国図書館やLCで出版 物を記録する際に使われている,または,当該分野で使われる,出 版されたキーワード集を使うべきである.
<list>
<item>Data base management</item>
<item>SQL (Computer program language)</item>
</list>
</keywords>
<list>
<item>English literature -- History and criticism -- Data processing.</item>
<item>English literature -- History and criticism -- Theory, etc.</item>
<item>English language -- Style -- Data processing.</item>
<item>Style, Literary -- Data processing.</item>
</list>
</keywords>
<classCode scheme="#lc">QA76.9</classCode>
要素catRef は,個別テキストを,複数の要素categoryを参照することで分類す るために使われる. 要素category(詳細は 2.3.6 分類法宣言)には,当該分類法における,特定 の分類に関する情報が記録される. 各分類には,ユニークな識別子が付与されている必要がある. これは,要素catRef にある属性targetの値として使用される.
target="#b.a4 #b.d2"
scheme="http://www.example.com/browncorpus"/>
<catRef target="http://www.example.com/SUC/#A45"/>
要素catRefと要素 classCodeの違いは, 前者では,分類コードが網羅的に規定されている中から値を特定する のに対して,後者では,そうではない,記述的な分類システムなどか ら値を指定することが想定されている.
- « 2.4 プロファイル解説
- » 2.6 最小構成と推奨構成
- Home | 目次
2.5 改訂解説TEI: 改訂解説¶
- revisionDesc ファイルの改訂履歴を示す.
- change 研究者間で共有されている電子テキストの特定の版に対して施 された変更や修正を示す.
改訂解説では,TEIヘダーが付加されるテキストの変更に関する情報が 記録される. また,TEIヘダー自体の変更についても記録されることが推奨され る(もちろん,この改訂解説そのものの変更も対象となる). 少なくとも,当該ヘダーが作成された日付を示す項目くらいは,記 述すべきである.
改訂の記録は,各変更を1項目としてまとめたリストとなる. これは,要素listにより記録される. この詳細は,3.7 リストにある. または,一連の要素changeにより記録される. この要素には,より詳細な変更の情報が記録される. 属性dateと属性respには,変更の日付と,変更の責任者につ いての情報が記録される. 変更そのものに関する記録は,散文形式で記録される. 複数の変更に対して,数値を関連させる場合(例えば,版の番号)に は,グローバル属性nを使い,それを示 すことができる.
変更の記録は,最新のものを始めに記録する順番で示されること が推奨される.
<change n="RCS:1.70" when="2001-04-11" who="#ZM">On Wed, 11 Apr 01
<name key="zmizuho.zgk" xml:id="ZM">Zoë Mizuho</name>
made correx entries (unfinished from <date when="1999-03-05">March 1999</date>.) all in text not tag.
supravalidated.
</change>
<change n="RCS:1.62" when="1999-08-24" who="#JR">On Tue, 24 Aug 99
<name key="jrussom.zxg" xml:id="JR">Jacque Russom</name>
removed vuji markup from FOREIGN and BIBL contents;
standardized vuji tags. </change>
<change n="RCS:1.47" when="1999-07-05"> On Mon, 05 Jul 99
<name key="edillon.pal">Erica Dillon</name>
deleted cit elements in Concluding matter, and propagated
attributes from this element to the q element. However,
only q elements exist in this text, where the quote element
actually seems to be more appropriate. This should be
looked into.
</change>
<change n="RCS:1.45" when="1999-06-30" who="#CM">On Wed, 30 Jun 99
<name key="cmah.dci" xml:id="CM">Carole Mah</name>
fixed n= attribute on PB; they were mis-numbered.
</change>
<change when="1997-03-13">On 13 March 1997
<name key="lmayer.ins">Lauryn S. Mayer</name>
began capture using Author/Editor v. 3.1 on Mac with
version 1.0.14 of DTD.
</change>
<change when="1997-06-12" who="#LM">On 12 June 1997
<name key="lmayer.ins" xml:id="LM">Lauryn S. Mayer</name>
began entering corrections with version 1.1.2a of DTD
</change>
</revisionDesc>
- « 2.5 改訂解説
- » 2.7 書誌情報に関する注釈
- Home | 目次
2.6 最小構成と推奨構成 TEI: 最小構成と推奨構成 ¶
TEIヘダーには,当該テキストに関する数多くの情報が記録されて いる. 例えば,元資料,符号化の方法,改訂について,使用される言語, 制作時の段取りや参加者などの状況,などである. このような情報の多様性は,当ガイドラインに準拠した電子テキス トの使用範囲が多様であることが関連している. 但し,全てのTEIヘダーが,ここで紹介した全ての情報を記録すべ きというではない.
TEIヘダー内に記録される情報は,当該テキストの種類や,その使 用目的により,その量は変わってくる. 例えば,身内で使われる際には,当該テキストを弁別する,書誌情 報の識別子のみをTEIヘダーに記録すればよいとすることもある. また,当該テキストがより多くのソフトウェアで使用される場合に は,できるだけ明確に,書誌情報ならびに記述的情報を記録し, TEIヘダーのみから全ての情報を得られるようにすることもあるだ ろう. このような場合,TEIヘダーには,多くの情報が記録され,殆どマ ニュアルといえるものになるだろう. 実際のケースでは,これら2つのケースの中間に位置づけられるだ ろう. 但し,テキストベースのコーパスでは,より後者に近いものになる 傾向はある. 本節では,まず,TEIヘダーに記録される書誌情報の最小構成の例 を示し,次に,一般に推奨される例を紹介する.
<fileDesc>
<titleStmt>
<title>Thomas Paine: Common sense, a
machine-readable transcript</title>
<respStmt>
<resp>compiled by</resp>
<name>Jon K Adams</name>
</respStmt>
</titleStmt>
<publicationStmt>
<distributor>Oxford Text Archive</distributor>
</publicationStmt>
<sourceDesc>
<bibl>The complete writings of Thomas Paine, collected and edited
by Phillip S. Foner (New York, Citadel Press, 1945)</bibl>
</sourceDesc>
</fileDesc>
</teiHeader>
TEIヘダーで必須の構成要素は,要素fileDescのみである. この要素の中には,要素titleStmt, 要素publicationStmt, 要素sourceDescが,必ず含まれる. 要素titleStmtには,当該テキストのタイトルが記録される. また,その著者も記録されるべきである. 著者が「不明・不詳」の場合でも,そうすべきである. また,要素respStmtを使い,責任に関する情報も記 録すべきである. 要素publicationStmtには,出版者や頒布者など, 当該ファイルの流布に責任を持つものが記録される. 要素sourceDescには,少なくとも,当該テキストの(もしあれば)元資 料に関する書誌情報が,記録されるべきである.
<fileDesc>
<titleStmt>
<title>Common sense, a machine-readable transcript</title>
<author>Paine, Thomas (1737-1809)</author>
<respStmt>
<resp>compiled by</resp>
<name>Jon K Adams</name>
</respStmt>
</titleStmt>
<editionStmt>
<edition>
<date>1986</date>
</edition>
</editionStmt>
<publicationStmt>
<distributor>Oxford Text Archive.</distributor>
<address>
<addrLine>Oxford University Computing Services,</addrLine>
<addrLine>13 Banbury Road,</addrLine>
<addrLine>Oxford OX2 6RB,</addrLine>
<addrLine>UK</addrLine>
</address>
</publicationStmt>
<notesStmt>
<note>Brief notes on the text are in a
supplementary file.</note>
</notesStmt>
<sourceDesc>
<biblStruct>
<monogr>
<editor>Foner, Philip S.</editor>
<title>The collected writings of Thomas Paine</title>
<imprint>
<pubPlace>New York</pubPlace>
<publisher>Citadel Press</publisher>
<date>1945</date>
</imprint>
</monogr>
</biblStruct>
</sourceDesc>
</fileDesc>
<encodingDesc>
<samplingDecl>
<p>Editorial notes in the Foner edition have not
been reproduced. </p>
<p>Blank lines and multiple blank spaces, including paragraph
indents, have not been preserved. </p>
</samplingDecl>
<editorialDecl>
<correction status="high" method="silent">
<p>The following errors
in the Foner edition have been corrected:
<list>
<item>p. 13 l. 7 cotemporaries contemporaries </item>
<item>p. 28 l. 26 [comma] [period] </item>
<item>p. 84 l. 4 kin kind </item>
<item>p. 95 l. 1 stuggle struggle </item>
<item>p. 101 l. 4 certainy certainty </item>
<item>p. 167 l. 6 than that </item>
<item>p. 209 l. 24 publshed published </item>
</list>
</p>
</correction>
<normalization>
<p>No normalization beyond that performed
by Foner, if any. </p>
</normalization>
<quotation marks="all" form="std">
<p>All double quotation marks
rendered with ", all single quotation marks with
apostrophe. </p>
</quotation>
<hyphenation eol="none">
<p>Hyphenated words that appear at the
end of the line in the Foner edition have been reformed.</p>
</hyphenation>
<stdVals>
<p>The values of <att>when-iso</att> on the <gi>time</gi>
element always end in the format <val>HH:MM</val> or
<val>HH</val>; i.e., seconds, fractions thereof, and time
zone designators are not present.</p>
</stdVals>
<interpretation>
<p>Compound proper names are marked. </p>
<p>Dates are marked. </p>
<p>Italics are recorded without interpretation. </p>
</interpretation>
</editorialDecl>
<classDecl>
<taxonomy xml:id="lcsh">
<bibl>Library of Congress Subject Headings</bibl>
</taxonomy>
<taxonomy xml:id="lc">
<bibl>Library of Congress Classification</bibl>
</taxonomy>
</classDecl>
</encodingDesc>
<profileDesc>
<creation>
<date>1774</date>
</creation>
<langUsage>
<language ident="en" usage="100">English.</language>
</langUsage>
<textClass>
<keywords scheme="#lcsh">
<list>
<item>Political science</item>
<item>United States -- Politics and government —
Revolution, 1775-1783</item>
</list>
</keywords>
<classCode scheme="#lc">JC 177</classCode>
</textClass>
</profileDesc>
<revisionDesc>
<change when="1996-01-22">
<name>CMSMcQ</name> finished proofreading
</change>
<change when="1995-10-30">
<name>L.B. </name> finished proofreading
</change>
<change when="1995-07-20">
<name>R.G. </name> finished proofreading
</change>
<change when="1995-07-04">
<name>R.G. </name> finished data entry
</change>
<change when="1995-01-15">
<name>R.G. </name> began data entry
</change>
</revisionDesc>
</teiHeader>
本章で解説した要素について,その推奨される利用例については,各 要素に関連する章や,各要素のリファレンスにも記載されている.
- « 2.6 最小構成と推奨構成
- » 2.8 TEIヘダーモジュール
- Home | 目次
2.7 書誌情報に関する注釈TEI: 書誌情報に関する注釈¶
- ISBD(G)
- 国際標準書誌記述は,国際的な規格で,書誌情報の記録に関す る定義である. ISBDには,いくつかの派生系があり,例えば,ISBD(M)は単行 本について,ISBD(ER)は電子媒体についてのものである. これらの派生系も,中心としてあるISBD(G)と同じスキームに 従うことになる. 但し,特定の資料に特化した解釈がされることになる.
- AACR2
- 英米目録規則第2版は,1978年に出版された. その修正版が1988年に出版されている. AACR2は,一般的な(訳注:欧米の)図書館で使われている書誌 情報の書き方についてのガイドラインである. AACR2は,ISBD(G)に則っており,その意味では,ISBDを補うも のといえる. AACR2には,ISBDに従い,インデックスをどのように構成し, 相互参照を記録上からどのように実現するかについての解説がある.
- ANSI Z.39.29
- ANSI Z.39.29は,アメリカの国家規格で,書誌参照についての 規格である. データベース上にある書誌データから,書誌情報,作品,要旨, 出版などのリストを作る際に使われることが想定されている. この規格は,現在は,停止され,改訂作業も止まっている. これと似た領域を規定する国際規格として,ISO 690:1987があ る. 他にも,BS 1629:1989,BS 5605:1978,BS6371:1983がある.
- « 2.7 書誌情報に関する注釈
- Home | 目次
2.8 TEIヘダーモジュールTEI: TEIヘダー Module¶
- 要素: appInfo application authority availability biblFull cRefPattern catDesc catRef category change classCode classDecl correction creation distributor edition editionStmt editorialDecl encodingDesc extent fileDesc funder geoDecl handNote hyphenation idno interpretation keywords langUsage language namespace normalization notesStmt principal profileDesc projectDesc publicationStmt quotation refState refsDecl rendition revisionDesc samplingDecl segmentation seriesStmt sourceDesc sponsor stdVals tagUsage tagsDecl taxonomy teiHeader textClass titleStmt
- クラス: model.applicationLike model.editorialDeclPart model.encodingPart model.headerPart model.profileDescPart model.sourceDescPart
↑ Contents « 1 TEIの基礎構造 » 3 コアモジュール