2 TEIヘダー

Contents

この章では,本文や,その元資料,符号化の方法,改訂の歴史など, 符号化に関わるあらゆる情報を記録する際の問題点を紹介する. そのような記録(ドキュメンテーション)は,電子テキストを利用す る研究者や,それを処理するソフトウェア,さらには図書館や文書 館で当該電子データの目録を作成する際にも必要となる. この様な情報は,いわば,印刷物に付属するタイトルページに相当 するものである. また,電子データに,慣習上付属する,マニュアルやコードブック に相当するものともいえる.

TEI準拠のテキストは,本章で解説する方法で記述された情報を伴 う必要がある. この情報を「TEIヘダー」といい,要素 teiHeader に記述されることになる. この要素は,4つの主要な部分から構成されている.
  • 「ファイル解説」:要素fileDescに記述される情報で,電子ファイルその ものに関する書誌情報が含まれている. この情報を元に,利用者は電子テキストを適切に引用すること が可能となる. また,図書館や文書館では,この情報を元に,カタログデータ を作成することができる. ここでいう「電子ファイル」とは,当該TEIヘダーが記録の対 象とする全ての文書を示している. これらの文書は,離れた場所にあることもあるだろう. このファイル解説では,電子化された文書の,元の資料に関す る情報を収録うることも可能である. このファイル解説に関する要素については,後述する 2.2 ファイル解説 で解説をする.
  • 「符号化解説」:要素encodingDescに記述される情報で, 電子テキストとその元資料の関係が記されている. 例えば,当該テキストは,転記の際に正規化されたのか,どの ように正規化されたのか,元資料にある曖昧な記述はどのよう に符号化されたのか,元資料のどのレベルで符号化や分析がさ れたのか,という情報が含まれている. この符号化解説に関する要素については,後述する 2.3 符号化解説 で解説する.
  • 「プロファイル解説」:要素 profileDescに記述される情報で, テキストの分類や周辺情報が記されている. 例えば,テーマ,制作時の状況,入力した人物,またはその製 作に関連した人物などの情報である. このような情報は,コーパスなどの言語情報を集めたものでは, 高階な構造になる. また,統制された記述表現を使うことが求められ,また,本文 中のテキストから,分類や出自を示すために参照されることに なる. このプロファイルについての記述は,各種のテキストの自動処理で 利用されることになるだろう. このプロファイル解説に関する要素については 2.4 プロファイル解説で解説する.
  • 「改訂解説」:要素 revisionDescに記述される情報で, 当該電子テキストの改訂の歴史が記録されている. 改訂の歴史は,「版管理」や,当該ファイルの経歴に関する問 い合わせの際に重要となる. 改訂解説に関する要素については 2.5 改訂解説で解説する.

THIヘダーは,大変巨大で複雑なデータにもなり得るし,とても簡 単なデータにもなりうる. ある分野(例えば,コーパスや発話の書き起こし)では,より詳細な 情報が記述されることになるだろう. 本ガイドラインでは,(TEIヘダーにおいて特別な手続きをとらずに 使うことができる)中心的な要素と,スキーマ中に付加的に導入さ れることで使用できる要素を定義している. コーパス向けのモジュールでは,付加的な要素を使うことができる ようになる(詳細は15 Language Corporaを参照).

次節では,TEIヘダーの全体の構造とそこに含まれる情報を概説す る. それ以降では,TEIヘダーの中心的な要素について詳しく解説する. 本章の最後にある 2.6 最小構成と推奨構成 では,TEIヘダーの最小限の構成について解説し,それが図書 館で使われる書誌情報とどのように関連するかを解説する.

2.1 TEIヘダーの構成

2.1.1 構成要素

要素teiHeaderは,電子テキスト中の前付け( 4.5 前付け) とは別のものと考えるべきである. コーパスや叢書といった,複数の部分からなるテキストでは, 複数のヘダーが必要となることがある. この詳細は,以下で解説する. しかし,TEI準拠のテキストでは,一般に,要素 teiHeaderは1つしか取らず, 続く要素textも1つである

TEIヘダーは,次の要素で示される.
  • teiHeader 全てのTEI準拠テキストが伴う,電子版のタイトルページ を構成する,記述的・宣言的情報を示す.
    type 当該ヘダーが付与される文書の種類を特定する. 例えば,コーパス,または独立テキスト.
先に紹介したとおり,要素 teiHeader は,4つの部分から構成されている.
  • fileDesc 電子ファイルに関する完全な書誌情報を示す.
  • encodingDesc 電子テキストとその元資料との関係を示す.
  • profileDesc 書誌情報的ではない詳細な解説を示す.例えば,言語や特 殊言語,生成されたときの状況,参加者など.
  • revisionDesc ファイルの改訂履歴を示す.
この4つの要素のうち, fileDesc だけが,TEIヘダーで必須の要素である. 他の3つの要素は,選択的に使われる. TEIヘダーのトップレベルの構造は,以下のようになる.
<teiHeader>
 <fileDesc>
<!-- ... -->
 </fileDesc>
 <encodingDesc>
<!-- ... -->
 </encodingDesc>
 <profileDesc>
<!-- ... -->
 </profileDesc>
 <revisionDesc>
<!-- ... -->
 </revisionDesc>
</teiHeader>
また,最小限の構成は,以下のようになる.
<teiHeader>
 <fileDesc>
<!-- ... -->
 </fileDesc>
</teiHeader>
コーパスや叢書の場合,各データ毎にヘダー情報を記録したいこ とも,また,当該コーパスや叢書そのもののヘダー情報を記録す ることもあるだろう (コーパス類の詳細は,15 Language Corporaを参照). 属性typeは,当該ヘダーが,コーパ スに付くのか,または部分テキストに付くものかを示すために使 うことが出来る. 例えば,以下のような形になる.
<teiCorpus>
 <teiHeader type="corpus">
<!-- corpus-level metadata here -->
 </teiHeader>
 <TEI>
  <teiHeader type="text">
<!-- metadata specific to this text here -->
  </teiHeader>
  <text>
<!-- ... -->
  </text>
 </TEI>
 <TEI>
  <teiHeader type="text">
<!-- metadata specific to this text here -->
  </teiHeader>
  <text>
<!-- ... -->
  </text>
 </TEI>
</teiCorpus>

2.1.2 内容モデル

TEIヘダー内で使われる要素は,その内容により,いくつかの分類 が可能である. 以下にあるリストは,内容の種類をまとめたものである.
自由記述
殆どの要素では,単純な自由記述を,いずれかのレベルで認め ている. 多くの要素が,散文(段落により構成される),または,散文を 含む,より特殊な要素を含むことができる. 本章で使われる「散文記述」とは,要素pで示される段落で構成され ているものと理解すべきである. それに対して「句」とは,段落は構成しない,句レベルとして ある文字データで構成されていると理解すべきである. 段落や句,リストなどについての詳細は,3.1 段落 を参照のこと.
グループ要素
要素名がStmtで終わるもの で(例えば editionStmttitleStmtなど), 一般には,構造化されたある情報を示す特別な要素である. 例えば,書誌情報を示す情報の場合,Stmtは 国際標準書誌記述(ISBD)に相当する要素の名前でも使われてい る. 4 多くの場合,グループ要素は,特別な要素の代わりとして, 散文を取ることができる. 従って,符号化する人は,情報を散文で記述するのか,また は構造化された形式で記述するかを,選択することができる.
宣言
要素名がDeclで終わるもの(例 えばsubjectDeclrefsDeclなど)で,電子テキストがど のように符号化されたかの情報を記録するものである. 一般には,あるコード表現されることになる. 例えば,複雑な構造や記述を示すコードをしめす宣言で表現さ れる. 複数のテキストと関連する宣言を,ヘダー内で1回宣言するこ とで,各テキスト中に繰り返さずに済ませることが出来る. テキスト(またはその下位部分)で属性declsを使うことで,宣言部分との相互 参照を構成することもできる. この詳細は,15.3 Associating ContextualInformation with a Text を参照のこと.
記述
要素名がDescで終わる (例えばsettingDescprojectDescは, 散文の記述を取ることができる. 必ずしも,見出しや下位要素により,構造化する必要はない.

2.1.3 モデルクラス

TEIヘダーでは,メタデータに関する多くの要素を定義しているが, 網羅的であるということではない. 個別のプロジェクトでは,TEIヘダーには定義されていない,また はより特殊な構造を持った要素をといった,特別なメタデータを使 いたいということもあるだろう. そのような時には,符号化する人は, 23.2 Personalization and Customization で解説するようなカスタマイズにより,要素を追加することも可能 である. TEIではクラスシステムを導入し,容易にカスタマイズすることが 可能で,その交換も容易に実現することができる.

TEIヘダーに関連するクラスには,以下のものがある.

2.2 ファイル解説

本節では,要素fileDescについて解説する. この要素は,要素 teiHeaderの1番目の子要素である.

機械可読なテキストの書誌情報は,印刷された書籍や論文などのテ キストの書誌情報と似た構造を持っている. ファイル解説向けの要素では,既存の図書館向け書誌情報と似たモ デルを採用している. 従って,利用者は,規格化された書誌情報を電子テキストに付加す ることが可能となり,容易にその書誌情報を作ることができる. ヘダー中に記録される書誌情報の書き方と,テキスト中に記録するこ とが可能な書誌情報の書き方は同じになっている(一般的な書誌情 報の参照については 3.11 書誌項目の記述または参照を参照のこと). 詳しい解説は2.7 書誌情報に関する注釈を参照のこと.

電子テキストの書誌情報は,必須の要素 fileDesc に記述される.
  • fileDesc 電子ファイルに関する完全な書誌情報を示す.
要素fileDescには,3つの必須の要素と,4つの 選択的な要素を含む. この詳細は 2.2.1 タイトルステートメントから 2.2.6 注釈ステートメント までの節で解説されている. これらの子要素は,要素fileDescにおいて,決まった順 番で出現する必要がある.
  • titleStmt 作品や知的内容に責任のあるもののタイトルに関する情報をまとめる.
  • editionStmt 版に関する情報をまとめる.
  • extent 電子・非電子テキストのおよその大きさを任意の単位で示す.
  • publicationStmt 電子テキストなどの出版や頒布に関する情報をまとめる.
  • seriesStmt 出版されたシリーズの情報をまとめる.
  • notesStmt 当該書誌情報の他の場所に記録されているテキストに関する注釈をまとめる.
  • sourceDesc 電子テキストが作られた元テキストの情報を示す.
全ての下位要素を持ったファイル解説は,以下のようになる.
<teiHeader>
 <fileDesc>
  <titleStmt>
<!-- ... -->
  </titleStmt>
  <editionStmt>
<!-- ... -->
  </editionStmt>
  <extent>
<!-- ... -->
  </extent>
  <publicationStmt>
<!-- ... -->
  </publicationStmt>
  <seriesStmt>
<!-- ... -->
  </seriesStmt>
  <notesStmt>
<!-- ... -->
  </notesStmt>
  <sourceDesc>
<!-- ... -->
  </sourceDesc>
 </fileDesc>
</teiHeader>
この中のいくつかの要素は省略することが可能である. 最小構成は,以下のようになる.
<teiHeader>
 <fileDesc>
  <titleStmt>
<!-- ... -->
  </titleStmt>
  <publicationStmt>
<!-- ... -->
  </publicationStmt>
  <sourceDesc>
<!-- ... -->
  </sourceDesc>
 </fileDesc>
<!-- other optional parts of the header here -->
</teiHeader>

2.2.1 タイトルステートメント

要素titleStmtは,要素 fileDescの1番目の子要素である.
  • titleStmt 作品や知的内容に責任のあるもののタイトルに関する情報をまとめる.
電子的な作品に付与されるタイトルを示す. また同時に,複数の,選択的な責任表示を伴う. 例えば,符号化する人,著者,収録者,その他責任を負う者など.
  • title 作品の完全なタイトルを示す.
  • author 書誌情報における,著作者(個人・団体)の名前を示す.書誌項目における 責任者を示す第一位の記述を示す.
  • sponsor 支援を行う組織や団体の名前を示す.
  • funder テキストやプロジェクトの資金提供に責任を持つ個人,団体,組織の名前を示す.
  • principal 電子テキストの生成に責任のある中心的な研究者の名前を示す.
  • respStmt 著者や編集者など特定の役割を示す要素が充分ではない場合に, テキスト,版,記録などの知的内容に関する責任を示す.
  • resp 人物の知的責任の性質を表す一節を示す.
  • name 固有名詞.

要素titleには,電子作品の,主要なタイトルと,そ の他のサブタイトルなどが記録される. 当該作品が複数のタイトルを持つ場合(例えば,異なる言語による タイトル)には,この要素は必要なだけ複数回使用される. 電子作品が,既存のテキストから作られている場合には,その元の 作品にあるタイトルも収録し,それを明確に分けて示すことが,強く 推奨される. 例えば,「電子的に転記」「電子版」などと記述しておくなど. これにより,引用やカタログ上で,電子作品と元のテキストを,同 時に,明確に分けて示すことが可能になる.

電子作品は,外部名(ファイル名やデータセット名)を持つことがあ る.また,コンピュータシステム上で使われる参照番号を持つこと もある. この種の名前は,頻繁に変わることがある. 例えば,コンピュータシステム上で新しくコピーが作られた場合な どである. この種の名前は,特定のコンピュータシステムに強く依存すること から,システム間では簡単に相互利用をすることは難しい. さらにやっかいなのは,当該電子作品は,複数のファイルから構成 されている可能性もある. 以上の様子から,本ガイドラインでは,この種の名前は,要素 title の内容には使わないことを,強く推奨する.

タイトルを記述する際の,有用なガイドラインとして, the Anglo-American Cataloguing Rules(Gorman and Winkler, 1978の第25章)や(訳注:多文化に対応していない記述),国家 レベルの書誌情報に関するガイドラインを参照することができる.

要素respStmtよりも,特化した内容を占め る要素として authorsponsorfunderprincipalがある. これらの要素は,作品や知的内容などに責任を持つ人物の責任表示を示 すために使われる.

この種の情報は,タイトルステートメント中に,必要なだけ記述す ることができる. 最低限,当該テキストの著者と,(場合によっては)当該電子ファイル を作った人物は,記述する必要がある. コーパスの場合には,当該コーパスを作った人物も記録すべきであ る. 当該テキストの転記者や,修正者,スポンサー,支援者などの名前 は,選択的に記録することができる. データ入力をした責任者の名前は,その人物が,当該ファイルの制 作にあたり,知的な責任がないとされる場合には,記録する必要は ない.

もし知的責任のある関係者が,著者,支援者,中心的な研究者でな い場合には,要素respStmtに記録する. この要素には,2つの下位要素があり,ひとつは要素nameで,個人または団体の名前 を示し,もうひとつは要素respで,ここに知的責任の内容が示され る. 要素respの内容については,特に推奨するものはない. 以下にある例のように,知的責任の内容を明確に示すことが肝要で ある.

名前は,個人名または団体名のどちらも取り得る. 名前は,公で引用できるようなものにしておく. 一般には,省略のない名前を示すことになるだろう. 5

例:
<titleStmt>
 <title>Capgrave's Life of St. John Norbert: a
   machine-readable transcription</title>
 <respStmt>
  <resp>compiled by</resp>
  <name>P.J. Lucas</name>
 </respStmt>
</titleStmt>
<titleStmt>
 <title>Two stories by Edgar Allen Poe: electronic version</title>
 <author>Poe, Edgar Allen (1809-1849)</author>
 <respStmt>
  <resp>compiled by</resp>
  <name>James D. Benson</name>
 </respStmt>
</titleStmt>
<titleStmt>
 <title>Yogadarśanam (arthāt
   yogasūtrapūṭhaḥ):
   a digital edition.</title>
 <title>The Yogasūtras of Patañjali:
   a digital edition.</title>
 <funder>Wellcome Institute for the History of Medicine</funder>
 <principal>Dominik Wujastyk</principal>
 <respStmt>
  <name>Wieslaw Mical</name>
  <resp>data entry and proof correction</resp>
 </respStmt>
 <respStmt>
  <name>Jan Hajic</name>
  <resp>conversion to TEI-conformant markup</resp>
 </respStmt>
</titleStmt>

2.2.2 版ステートメント

要素editionStmtは,要素 fileDescの2番目の子要素である. この要素は選択的に使うことが出来るが,使うことが推奨されてい る. 版やその責任表示に関する情報を,句や特別な要素で示す.
  • edition テキストの版の詳細を示す.
  • respStmt 著者や編集者など特定の役割を示す要素が充分ではない場合に, テキスト,版,記録などの知的内容に関する責任を示す.
  • name 固有名詞.
  • resp 人物の知的責任の性質を表す一節を示す.

印刷物の場合,「版」は,あるマスター原稿から作られた同じ複製 物をまとめて表現するための用語で,出版者によって頒布されるも のである. 「版」は,頒布される複製物が変更されたときには,一般には変更 はないが,マスター原稿に修正が加えられた時に変更されるもので ある.

電子テキストの場合,「マスター原稿」というものを想定するのは 相応しくない. 理由は,電子テキストは,印刷されたテキストよりも,容易に変更 され,容易に複製を作ることができるからである. それにも関わらず,機械可読なテキストにおいても,本質的な変更 が加えられ,それが確定した際には,その状態を「版(edition)」 という言葉で表現することもできるだろう. 本ガイドラインでは,この「版(version)」の同義ととして, 「レベル(level)」や「公開(release)」も使われる. 「改訂(revision, update)」は,版を変える必要のない,小さ な変更が施された場合に使われる.

改訂(update)ではなく,新しい版(edition)と見なされるには,ど の程度の本質的な変更が必要であるかを規定する決まりなどは存在しな い. 本ガイドラインが提示できる一般的な規則としては,新しい版には, 符号化の仕方や表示法の変更ではなく,知的内容に重要な変更が含 まれている場合を想定している. 例えば,テキスト中に分析的なタグが付加された場合には,それは 新しい版と見なされ,符号化方式が別の方式に自動的に変換された ような場合には,それを新しい版とは見なさないことになる. 文字コードが変わったり,ファイルの構成が変更したり,スペルミ スを修正したり,内容の構成を変更したり,出力形式を変更した場 合などは,新しい版になるものではない. 新しい情報(例えば,品詞情報や,音声,字形,外部参照など)が付 加された場合には,新しい版になる.

もちろん,境界線上のものは必ず存在し,これは任意の問題となる. 簡単に言えば,新しい版と判断するのであれば,そうする,という ルールとなる. 電子ファイルのオリジナルに対する版ステートメントは,任意であ る. しかし,続いて公開されたものについては,版ステートメントは必 須となる. それでも,検証器はこれを確認する必要はない.

版や改訂などの変更の大きさにかかわらず,電子ファイルにおける 全ての変更については,ヘダーファイルに必ず記録されるべきであ る(詳細は2.5 改訂解説 を参照).

要素editionの内容には,「版(edition, version)」 に相当する表現が,数値や,日付や,その違いを示す,例えば「新 版」「改訂版」などが記録される. 版ステートメントで使われる日付は,全て,要素dateの内容 に記される. 要素editionにある属性n は,当該版を示す公式な識別子(例えば,版番号)を示すために使わ れる.

版に関する責任表示を示すために,要素respStmtを複数回使うことができる. この要素を使い,例えば,改訂をした主体や,付加された付録など に関わる個人や団体の名前を示すことになる. 要素respStmtについての詳細は,3.11 書誌項目の記述または参照 を参照のこと.

以下は,例である.
<editionStmt>
 <edition n="P2">Second draft, substantially
   extended, revised, and corrected.</edition>
</editionStmt>
<editionStmt>
 <edition>Student's edition, <date>June 1987</date>
 </edition>
 <respStmt>
  <resp>New annotations by</resp>
  <name>George Brown</name>
 </respStmt>
</editionStmt>

2.2.3 ファイルのタイプと大きさ

要素extentは,要素 fileDescの3番目の子要素で,選択的 な要素である.
  • extent 電子・非電子テキストのおよその大きさを任意の単位で示す.

書籍では,媒体の種類や大きさといった,外形についての情報は, 書誌情報として大変重要である. このような,印刷物を想定して作られた,書誌情報の記述規則は, 電子媒体においても適応されることがある. 電子ファイルは,それを記録する媒体から独立して存在したもので ある. また,その媒体が,例えば,磁気テープやCDROM,フロッピーディ スク,大型コンピュータ上のファイルなど,どのようなものであれ, 電子ファイルは,同じ知的内容を持っている. さらに,本ガイドラインは,可搬性を高めることを目指しているこ とから,機械に依存した情報をヘダーファイルに収録することは, 適切ではない.

例えば,この種の情報として「ファイル型」というものがある. 従来の図書館における目録規則では,「データ」と「プログラム」 は分けて記述されてきた. しかしながら,例えば,検索ソフトウェア中にあるハイパーテキス トにおいて,この区別は極めて難しい.

当該ファイルの大きさは,システム依存ではあるけれども,書誌情 報として記録することがある. ファイルの大きさを表現することは,難しいが,推奨できる一般的 な示し方はある. 要素extentはこの情報を記録するために用意されてい る. この要素の中に,ファイルの大凡のサイズを,例えば,以下のよう に記述する.
  • バイトで示す(例えば,4000 16ビットバイト) (訳注:16ビットバイトとは,1バイトを16ビットとする方法).
  • 範囲示す.例えば,以下のような表現.
    • 1Mb以下
    • 1Mbと5Mbの間
    • 6Mbと10Mbの間
    • 10Mb以上
  • 論理単位で示す(例えば,語,文,引用,段落など).
  • 物理的な単位で示す(例えば,ブロック,ディスク,テープな ど).

量の単位には,規格化された記号を使うことが推奨される (http://physics.nist.gov/cuu/Units/binary.html を参照).

例:
<extent>between 1 16-bit MB and 2 16-bit MB</extent>
<extent>4.2 MiB</extent>
<extent>4532 bytes</extent>
<extent>3200 sentences</extent>
<extent>5 90 mm High Density Diskettes</extent>

2.2.4 出版・頒布など

要素publicationStmtは,要素 fileDescの4番目の子要素で,必須の要素である.
  • publicationStmt 電子テキストなどの出版や頒布に関する情報をまとめる.
この要素の内容には,複数の段落,またはクラスmodel.publicationStmtにある複数の 要素をとる. このクラスとは,以下のようなものである.
  • publisher 書誌項目の出版や頒布に責任のある団体の名前を示す.
  • distributor テキストの頒布に責任を持つ人物または団体の名前を示す.
  • authority 電子データの作成に責任のある個人または団体の名前を示す. 出版者や頒布者ではない.

「出版者(publisher)」とは,個人または団体のことで,当該ファイルの版を公 にする主体のことである. 「頒布者(distributor)」とは,個人または団体のことで,そこか ら当該テキストの複製を得ることができる主体のことである. テキストが,正規には出版されてはいないものの,それを入手可能 な状態にしている個人や団体は,「責任者(reliase authority)」 とする.

出版に関する情報が散文的に書かれるのでなければ,この3つの要 素のうち,少なくとも1つは,記述される必要がある. 上記3つの要素に加えて,以下の要素も使われることがある. 6:
  • pubPlace 書誌項目が出版された場所の名前を示す
  • address 郵便配達情報を示す.例えば,出版者,組織,個人の住所など.
  • idno 書誌項目を特定する標準的・非標準的数値を示す.
    type 当該数値の分類を示す.例えば,ISBNなど.
  • availability テキストの利用可能性に関する情報を示す.例えば,その使 用や頒布,著作権に関する制限など.
    status 当該テキストの,現在の利用可能性を表すコードを示す.
  • date 日付を示す.

出版者,頒布者,責任者として記録された日付や場所については, 最新の情報であることに注意すること. 当該テキストの制作が,出版した日付とは異なる場合には, 制作日を,このステートメントではなく,要素profileDescに記載すべきである. その他の有用な日付(例えば,データを収集した日付)は,注釈とし て記録する.

13 名前,日付,人物,場所 に記載されているモジュールを使い,名前や,日付,住所などにつ いて記録する,付加的な要素の詳細については 3.5 名前,数値,日付,略語,住所を参照のこと.

例:
<publicationStmt>
 <publisher>Oxford University Press</publisher>
 <pubPlace>Oxford</pubPlace>
 <date>1989</date>
 <idno type="ISBN">0-19-254705-4</idno>
 <availability>
  <p>Copyright 1989, Oxford University Press</p>
 </availability>
</publicationStmt>
<publicationStmt>
 <authority>James D. Benson</authority>
 <pubPlace>London</pubPlace>
 <date>1984</date>
</publicationStmt>
<publicationStmt>
 <publisher>Sigma Press</publisher>
 <address>
  <addrLine>21 High Street,</addrLine>
  <addrLine>Wilmslow,</addrLine>
  <addrLine>Cheshire M24 3DF</addrLine>
 </address>
 <date>1991</date>
 <distributor>Oxford Text Archive</distributor>
 <idno type="ota">1256</idno>
 <availability>
  <p>Available with prior consent of depositor for
     purposes of academic research and teaching only.</p>
 </availability>
</publicationStmt>

2.2.5 シリーズステートメント

要素seriesStmt は,要素fileDesc の5番目の子要素で,選択的な要素である.
  • seriesStmt 出版されたシリーズの情報をまとめる.
書誌情報における「シリーズ」は,以下の意味で使われている.
  • 独立したもの(出版物)が,互いに共通して持つ事柄から,グルー プ化されるもの.個別のタイトルや,グループのタイトルもある. 個々の出版物には,番号が付けられることもある.
  • エッセイ,講義,論文などが,似た系列として,一連に出版さ れる,2巻以上の構成になるもの.
  • 一連に出版されるものに,連番が振られているもの.
要素seriesStmtは,散文,または以下にある要 素を内容に持つ.
  • title 作品の完全なタイトルを示す.
  • idno 書誌項目を特定する標準的・非標準的数値を示す.
  • respStmt 著者や編集者など特定の役割を示す要素が充分ではない場合に, テキスト,版,記録などの知的内容に関する責任を示す.
  • resp 人物の知的責任の性質を表す一節を示す.
  • name 固有名詞.

要素idno には,当該出版物と関連するIDとなる番号が記される. 例えば,ISSNや,特定の出版番号など(この場合,アラビア数字を 使うことが推奨されている.例えば,6.19.33となる.VI/xix:33とはしない). 属性typeは,その番号の種類を示すため に使われ,例えば,ISSN番号であることを示すには,属性値をISSNとする.

例:
<seriesStmt>
 <title level="s">Machine-Readable Texts for the Study of
   Indian Literature</title>
 <respStmt>
  <resp>ed. by</resp>
  <name>Jan Gonda</name>
 </respStmt>
 <idno type="vol">1.2</idno>
 <idno type="ISSN">0 345 6789</idno>
</seriesStmt>

2.2.6 注釈ステートメント

要素notesStmtは,要素 fileDescの6番目の子要素で,選択的 な要素である. 複数の要素note取ることができ,伝統的な書誌情報で いうところの一般注記に相当する内容を,個々の要素noteに示してゆく.
  • notesStmt 当該書誌情報の他の場所に記録されているテキストに関する注 釈をまとめる.
  • note 注釈・コメント.
本ガイドラインでは,従来,注釈と扱われてきたいくつかの情報に は,特別な要素を用意している. 特に,以下にある情報については,本節の要素noteではない,別の 要素が使われるべきである.
  • 性格,範囲,芸術形式,目的.また,ジャンルや,知的範疇な ど. 例えば,「テキスト種:新聞の署名記事,SF,西部劇,推理小 説」など. この種の情報は,要素profileDescに記録される( 2.4 プロファイル解説を参照).
  • 当該ファイルの内容について,評価の対象には成らないような 解説や事実のまとめ. 例えば,「1963年の春から夏にかけて,17都市に住む英語話者 に対してなされた,一般的なテーマについてのインタビューを 書き起こしたもの」など. この種の情報は,要素profileDescに記録される( 2.4 プロファイル解説 を参照).
  • 電子テキストの元資料に関する書誌情報の詳細. 例えば「1623年ノートンファクシミリ版(The Norton Facsimile)からの転記」など. この種の情報は,要素sourceDescに記録される( 2.2.7 元資料解説を参照).
  • 当該電子テキストやその元資料の,出版や頒布に関する詳細. 例えば,その利用に関する制限や,利用時の公式用語など. この種の情報は,要素publicationStmtに記録される( 2.2.4 出版・頒布などを参照).
  • 当該ファイルに関連づけられた文書公開番号. 例えば,「ICPSR研究No.1803」「OTAテキストNo.1243」など. この種の情報は,適切な要素publicationStmt内にある要素idnoに記録される. ISSNやISBNなどの,国際的な同意が得られている規格番号も, 同様に,扱われるべきである.
上記のような情報以外は,要素notesStmtを使い,記録される. 例えば,以下のようなものである.
  • 電子テキストの内容や制作環境に関する日付. 例えば「1983年記録」「インタビュー,テイク1,1989年春; テイク2,1990年1月」など.
  • 当該ファイルの作成に,技術上,管理上,助言する立場などか ら関わった人物や団体において,責任表示には出ていないもの の名前. 例えば,「マーク・コーエンによる歴史に関するコメンタリ」など.
  • 付加的なメディアにある当該電子ファイルの利用に関する情報 や,記録の利用状況について,まだ示されていない,情報など. 例えば,「ユーザマニュアルは,11ページ立ての章から成る, ルーズリーフ形式」など.
  • 作品や要旨で使われる言語. 例えば,「本文は英語,要旨は仏語と独語」など.
  • ISDSにより,逐次刊行物に振られたユニークな名前.
  • 元資料を記述したものや,当該電子作品の制作や利用の際に関 連する出版物のリスト. 例えば,「Burrows (1987)で使われるテキスト」など.
以上のような情報は,要素noteに記録されるべきである. この詳細は,3.8 注釈と索引にある. 要素notesStmtは,複数のnoteを束ねる. 例えば,以下のようなものとなる.
<notesStmt>
 <note>Historical commentary provided by Mark Cohen.</note>
 <note>OCR scanning done at University of Toronto.</note>
</notesStmt>

2.2.7 元資料解説

要素sourceDescは,要素 fileDescの7番目の子要素で,最後の子要素でも ある. これは必須の要素で,当該電子ファイルが作られた元資料について の詳細を記録するために使われる. 例えば,印刷されたテキスト,手書き資料,他の電子ファイル,各 種の音声・動画,これらのマルチメディアなどが対象となる. はじめから電子媒体として作られている場合には,元資料というも のがないこともある.
  • sourceDesc 電子テキストが作られた元テキストの情報を示す.
要素sourceDescには,散文形式の記述,ま たは,元資料はない,といコメントが記されることになる.
<sourceDesc>
 <p>Born digital.</p>
</sourceDesc>
その他にも,以下にあるクラスの要素を含むことが出来る.
これらのクラスは,当該テキストの来歴を示す各種書誌情報を示すた めのものである. 紙媒体の元資料の場合,以下にある要素を,他の書誌情報と同じよう に,使うことが出来る.
  • bibl 厳密でない構造を持つ書誌情報の引用を含む.下位要素で明示されていたり, いなかったりする.
  • biblStruct 構造を持った書誌情報を示す.下位要素として,書誌情報を示す 要素が決められた順番で出現する.
  • listBibl 書誌項目引用のリストを示す.
これらの要素の詳細は, 3.11 書誌項目の 記述または参照にある. これらの要素を使い,元資料の様子を簡単に記述することが出来る.
<sourceDesc>
 <bibl>The first folio of Shakespeare, prepared by
   Charlton Hinman (The Norton Facsimile, 1968)</bibl>
</sourceDesc>
より詳細な記述も,以下のようにできる.
<sourceDesc>
 <biblStruct xml:lang="FR">
  <monogr>
   <author>Eugène Sue</author>
   <title>Martin, l'enfant trouvé</title>
   <title type="sub">Mémoires d'un valet de chambre</title>
   <imprint>
    <pubPlace>Bruxelles et Leipzig</pubPlace>
    <publisher>C. Muquardt</publisher>
    <date when="1846">1846</date>
   </imprint>
  </monogr>
 </biblStruct>
</sourceDesc>
電子テキストが,既にある電子テキストやTEI準拠のテキストの場合 には,以下の要素を使う方がより簡単である.
  • biblFull 厳密な構造を持つ書誌情報を示す.TEIのファイル記述の全要素は,ここに記述される.
ここでは,「生来デジタル(born digital)」の文書を想定している. この詳細については, 2.2.8 他のファイルから得られたファイルにある.
もし,手書きモジュールを利用するならば,以下にある要素も使うこ とが可能である.
  • msDesc 単一の識別可能な手書き資料の解説を示す.
この要素により,手書き資料やそれと同種の資料についての詳細な情 報を記録することができる. この詳細については, 10 Manuscript Descriptionにある.
クラスmodel.sourceDescPartにある要素も使うことが出来る. 例えば,発話モジュールを導入した時,要素sourceDescは,以下にあるような, 書かれたテキストではなく発話されたテキストを意図した, 特別な用途向けの要素を含むことが出来る.
  • scriptStmt 発話テキストで使われている台本の詳細に関する引用を示す.
  • recordingStmt 発話テキストの転記の元になる録音,録画されたものを示す.
これらの要素についての詳細は,8.2 Documenting the Source of Transcribed Speech にある.
元資料解説では,元資料の情報として,名前,人物,地名などのリス トを記録することができる. この種の情報が,名前モジュール(13 名前,日付,人物,場所)を使い,記録される場合には,クラス model.listLikeを使うこと ができる.
  • listNym 別名,すなわち,一般的に使われている名前のリストを示す.
  • listOrg 特定可能な団体に関する情報を示す解説のリストを示す.
  • listPerson 特定可能な個人やグループに関する情報のリストを示す.例えば,言語交流 の参加者や,歴史資料中で参照される人物など.
  • listPlace 場所のリストを示す.選択的に,場所間の(包含関係ではなく)関連性を 示すリストが続く.

2.2.8 他のファイルから得られたファイル

電子ファイル(これを仮にBとする)が,印刷物からではなく,TEIヘ ダーを伴う別の電子ファイル(これを仮にAとする)から得られたも のであるとき,AはBの元資料といえる. この時,AのTEIヘダーにある4つの部分は,BのTEIヘダーの中に, 他とは少し異なる手法で,以下のように入れ込むことになる.
fileDesc
Aにあるファイル解説の内容は,要素biblFullを使い, Bの要素sourceDesc の中に埋め込まれる.
profileDesc
Aにあるプロファイル解説の内容は,原則,そのままBの中に埋 め込まれる. 個別に拡張することも可能である.
encodingDesc
Aにある符号化解説の内容は,Bの中に埋め込んでも良いし, (殆どの場合は)埋め込まなくても良い. 符号化解説の内容は,当該電子ファイルと元資料との関係を示 すものであるから,AとBとの関係における符号化についての情 報を記録すればよい. Aと,その元資料との関係は,Aのヘダーにある情報を見れば, 解ることでもある. 実際には,Aを元資料としたBに対して,新しくencodingDescを作り上げた方が便利である.
revisionDesc
Bは,新しく作られる電子ファイルであることから,新しい改 訂解説が作られることになる. 但し,Aにある要素revisionDescにある情報を使った 方がよいと思われる際には,主立った版改訂の情報は,Aと関 連して示した良い.
以上が,要素fileDesc についての解説である.

2.3 符号化解説

要素encodingDescは,TEIヘダーの,2つ目 の上位要素である. この要素では,テキストを入力する際に,転記や符号化における手 法や編集方針が記録される. また,TEIヘダー内にある他の要素が使用する,符号化の定義につ いても記録される. 公式上は,この要素は必須ではないが,使うことが強く推奨されて いる.
  • encodingDesc 電子テキストとその元資料との関係を示す.
符号化解説では,要素pで示された段落の中に情報がテキストで 記述される. または,クラスmodel.encodingPartにある,特別な 目的向けの要素を使うことができる. 初期状態では,以下の要素を使うことができる.
  • projectDesc 制作過程に関する情報も含めて,電子ファイルが作られた目的の詳細を示す.
  • samplingDecl コーパス等を作成する際,テキストを標本化する原理や手法に 関する,散文による解説を含む.
  • editorialDecl テキストを符号化する際に適用される編集方針や編集方法の詳 細を示す.
  • tagsDecl タグ付けに関する詳細な情報を示す.
  • refsDecl 標準的な参照の作られ方を示す.
  • classDecl 当該テキスト中で使用されている分類コードを定義する,ひと つ以上の分類法を示す.
  • appInfo TEIファイルを編集したソフトウェアに関する情報を示す.
これらの要素の詳細は,以下で解説する. 他のモジュールでも,このクラスを拡張して使うことが可能である. この詳細は,2.3.8 モジュール別の宣言にある.

2.3.1 プロジェクト解説

要素projectDescには, 散文形式で,電子資料が作られた目的が,その過程の情報と共 に,記録される. この情報は,とりわけ,コーパスや各種コレクションにおいて は重要なものとなる. 他にも,ここで採用された符号化方法の,その理由を知るため にも使われるものである.
  • projectDesc 制作過程に関する情報も含めて,電子ファイルが作られた 目的の詳細を示す.
例えば,以下のようになる.
<encodingDesc>
 <projectDesc>
  <p>Texts collected for use in the
     Claremont Shakespeare Clinic, June 1990.</p>
 </projectDesc>
</encodingDesc>

2.3.2 サンプリング宣言

要素samplingDeclは,サンプルとなるテキ ストを選択した理由やその手法を解説するためのものである.
  • samplingDecl コーパス等を作成する際,テキストを標本化する原理や手法に 関する,散文による解説を含む.
ここでは,以下のような情報が記録される.
  • 個別サンプルの大きさ.
  • 選択の手法.
  • サンプルを取り出す範囲の大きさ.
  • サンプル化の対象.
但し,上記の情報だけに限定されるものではない.
<samplingDecl>
 <p>Samples of 2000 words taken from the beginning of the text.</p>
</samplingDecl>
この様に,簡単に記録することも可能であるし,以下のように詳細に 示すことも可能である.
<samplingDecl>
 <p>Text of stories only has been transcribed. Pull quotes, captions,
   and advertisements have been silently omitted. Any mathematical
   expressions requiring symbols not present in the ISOnum or ISOpub
   entity sets have been omitted, and their place marked with a GAP
   element.</p>
</samplingDecl>

サンプリング宣言は,それが該当する複数のテキスト中の各ヘダーで, その内容を繰り返し記録する必要はない. 各テキストにおいては,属性declsを使い, サンプリング宣言で記されている内容へ相互参照を実現すればよい. この詳細は,15.3 Associating Contextual Information with a Text で解説する.

2.3.3 編集方法宣言

要素editorialDeclには,テキストを符号 化する際に採られる編集方法が記録される.
  • editorialDecl テキストを符号化する際に適用される編集方針や編集方法の詳細を示す.
この要素には,散文形式の記録のみ,またはクラス model.editorialDeclPartにある複数の要素を取ることがで きる. 符号化する人が,編集方針を上記の方法では記録したくない場合に は,新たな要素を追加することも可能である. この詳細は 23.2 Personalization and Customizationで解説する.
いくつかの要素は,編集方針を自動処理するために使われる属性を 持つことができる. 全ての要素は,編集方針を散文形式で記録することができる. 例えば,以下のような情報を記録する要素が用意されている.
correction
  • correction テキスト中に施された修正の状況や方法を示す.
    status 当該テキストに施された修正の実行状況を示す.
    method 当該テキストに施された修正の方法を示す.

当該テキストは,入力の際に,修正されているか否か. 修正されているとすれば,その跡は3.4 簡単な編集上の変更にあるよう, 記録されているのか. そのような修正の対象となったものは,省略,切り捨て, 疑わしいカ所,別な読み,間違い,反復などのどれか.

normalization
  • normalization 元資料が電子形式に変換される施される正規化の程度を示す.
    source 正規化を施した責任者を示す.
    method 当該テキストに施された正規化の方法を示す.

当該テキストは,一般的ではない綴りや,方言などが正規 化されたのか. そうであれば,その痕跡は,3.4 簡単な編集上の変更にある様な手法 で明記されているのか. 正規化の方法には,責任付けられるものがあるのか. 属性valueに, 3.5.3 数値や計測値にあるよう な,規格化された値が付与されるとき,どのような方針や 書式が採られているのか.

quotation
  • quotation 元資料にあった引用をどのように編集したのかを示す.
    marks テキスト中の内容として,引用符をそのまま残したかどうかを示す.
    form 当該テキスト中に引用符がどのように示されているかを示す.

疑問符はどのように処理されるのか. アポストロフィーや引用符は区別されるのか. それは,どのように区別されるのか. 引用符は,本文の一部として保持されるのか,またはマー クアップに置き換えられるのか. 引用符が入れ子になっている際,記号の使用については, 何か規則はあるのか. 当該ファイルの内容は,利用の際に変更がないのか.その確認はされてもいないのか.

hyphenation
  • hyphenation 元資料にあるハイフンが,符号化される場合にどのように扱われたかを示す.
    eol 行末のハイフンをそのまま残したかどうかを示す.

ソフトハイフン(印刷上のハイフン)か,ハードハイフン (元々のハイフン)か. 元のテキストにはなかった行替えがある場合,行末にある ハイフンにはどのような扱いをされているのか. ソフトハイフンが外されている場合,それが行替えやペー ジ立てに影響を与えているかどうか.

segmentation
  • segmentation 当該テキストを分割した基準を示す.例えば,文,音単位,書記層など.

当該テキストは,どのように分割されているのか. テキストの小単位を作る要素ssegが使われている場合,これら はどのようなものとして使われているか.

stdVals
  • stdVals 標準的な日付や数値を示す形式を特定する.

殆どの場合,規格化された値を伴う属性( whenwhen-iso) には,W3CまたはISOのデータ型が使われる. それでは不都合の場合,属性値にある値を生む手法を解説 するために,この要素が使われる.

interpretation
  • interpretation 転記されたテキストに付加された,分析または解釈情報の範囲を示す.

分析的・解釈的な情報,すなわち,客観的なものではなく, 本質的に論争点を含む情報があるか. そのような情報を含む場合,それはどのように作られたの か. また,どのように符号化されているのか. 素性構造モジュールが使われている場合,要素 fsdDecl( 18.11 素性システム宣言)は使われているか.

上記の要素に該当しない,編集方針に関する情報も,どこかに記録 されるべきである. 経験上,編集に関わる決断についての情報は,将来の利用者のため, また当該テキストを作成したプロジェクトのためにも,全て記録す べきである. 以下は,簡単な例である.
<editorialDecl>
 <interpretation>
  <p>The part of speech analysis applied throughout section 4 was
     added by hand and has not been checked.</p>
 </interpretation>
 <correction>
  <p>Errors in transcription controlled by using the
     WordPerfect spelling checker.</p>
 </correction>
 <normalization source="http://szotar.sztaki.hu/webster/">
  <p>All words converted to Modern American spelling following
     Websters 9th Collegiate dictionary.</p>
 </normalization>
 <quotation marks="allform="std">
  <p>All opening quotation marks represented by entity reference ODQ; all closing
     quotation marks represented by entity reference CDQ.</p>
 </quotation>
</editorialDecl>

複数箇所に共通して当てはまる,編集方針を示す宣言は,各テキスト のヘダー中で,繰り返し示される必要はない. 各テキスト中で属性declsを使うことによ り,相互参照を示すことができる. この詳細は,15.3 Associating ContextualInformation with a Textにある.

2.3.4 タグ付け宣言

要素tagsDeclには,以下にあるような,特定 テキスト内で使われるタグに関する情報が記録される.
  • 転記されたテキスト中に出現する要素の名前空間.
  • 当該テキスト中にどの程度その要素が出現するのか. この情報は,データ交換の際,内容を検証するときに使うこと ができる.
  • ある要素の使い方についての,他の場所では記録されることの ない情報.
  • 関連する要素全てに当てはまる,初期値としての表示方法..
この情報は,以下にある要素で示される.
  • rendition 元資料テキスト中にある,ひとつ以上の要素の描出や現れ方に 関する情報を示す.
    scheme 当該描出を解説する言語を特定する.
  • namespace 当該要素が属する名前空間の形式名を示す.
  • tagUsage テキスト中にある特定要素の使い方に関する情報を示す.

要素tagsDeclは,一連の要素renditionを選択的に取り, 続いて,一連の要素tagUsageを伴い,TEI文書の一番上位にあ る要素text内で使われている要素についての 情報が記される. 要素renditionは,ユニークな識別子が与えられる. 要素tagUsageには,少なくとも1つの要素namespaceが伴う.

要素renditionには,各要素が,元資料中 ではどのように表現されていたかについての情報が,以下のように 記される.
  • 非公式の,散文による記述.
  • 規格化されたスタイル言語,例えば,CSSやXSL-FOによる記述.
  • 各プロジェクトで定義した形式言語による記述.
複数の規格を使う場合,以下の方法で関連をとることができる.
  • 要素tagUsageに属性renderを付与することで,関連する要 素全ての表示方法の初期値を示す.
  • グローバル属性renditionは, どの要素にも付与することが可能で,これにより,表示方法を 指定し,さらに,下位にあるこの属性全ての値を上書きするこ とが出来る.
グローバル属性rendも,当該要素の表 示方法を指定するために付与することができる. 属性rendが,属性renditionと共に付 与された場合には,要素の初期値を上書きするように,この属性rendの 値が優先される.
例えば,以下のスキーマでは,要素pの表示方法の初期値は,識別子style1が付与された要素で定義され, また,要素hiの表示方法は,識別子 style2が付与された要素で定義されて いる.
<tagsDecl>
 <rendition xml:id="style1">
   ... description of one default rendition here ...
 </rendition>
 <rendition xml:id="style2">
   ... description of another default rendition here ...
 </rendition>
 <namespace name="http://www.tei-c.org/ns/1.0">
  <tagUsage gi="prender="#style1"> ... </tagUsage>
  <tagUsage gi="hirender="#style2"> ... </tagUsage>
 </namespace>
</tagsDecl>
<!-- elsewhere in the document -->
<p>This paragraph,mostly rendered in style1, contains a few words
<hi>rendered in style2</hi>
</p>
<p rendition="#style2">This paragraph is all rendered in style2</p>
<p>This is back to style1</p>
上述したように,要素renditionの内容には,散文形式や,プロジェ クト固有の形式言語や,既存の規格言語を使い,その元資料の様子が 記されている. 規定の規格には, CSS(Lie and Bos (eds.) (1999))や,XMLの表示関連規格であるXSL( Berglund (ed.) (2006))がある. 属性schemeは,要素renditionで使われている規格を,以下 にある値で示す.
free
自由記述.
css
CSS
xslfo
XSL-FO
other
利用者が決めた,描出記述言語.
以下では,少し詳細な例として,以下にある20世紀の出版物のタイト ルページを例に取り上げ,その表示方法がどのように記録されるのか を考えてゆく. タイトルページにある他の情報の記録方法については,4.6 タイトルページを 参照のこと ここでは,視覚的な情報を,要素renditionと,それに関連する属性を使い,記録す ることを考える.
まずはじめに,元資料にあるページにある,記録しておきたい表示の 様子に該当する要素を定義する. ここで使われているCSSについての詳細はLie and Bos (eds.) (1999)にある. 今回は,フォントサイズ,フォントスタイル,字間,行間,色につ いて記録を取ることにする.
<tagsDecl>
 <rendition xml:id="centerscheme="css">text-align: center;</rendition>
 <rendition xml:id="smallscheme="css">font-size:
   small;</rendition>
 <rendition xml:id="largescheme="css">font-size: large;</rendition>
 <rendition xml:id="x-largescheme="css">font-size: x-large;</rendition>
 <rendition xml:id="xx-largescheme="css">font-size: xx-large</rendition>
 <rendition xml:id="expandedscheme="css">letter-spacing: +3pt;</rendition>
 <rendition xml:id="x-spacescheme="css">line-height: 150%;</rendition>
 <rendition xml:id="xx-spacescheme="css">line-height: 200%;</rendition>
 <rendition xml:id="redscheme="css">color: red;</rendition>
</tagsDecl>
グローバル属性renditionを該当する要素 に付与することで,上記の表示情報を記録することができる. 例えば,タイトルページは,以下のように記録される.
<titlePage>
 <docTitle rendition="#center #x-space">
  <titlePart>
   <lb/>
   <hi rendition="#x-large">THE POEMS</hi>
   <lb/>
   <hi rendition="#small">OF</hi>
   <lb/>
   <hi rendition="#red #xx-large">ALGERNON CHARLES SWINBURNE</hi>
   <lb/>
   <hi rendition="#large #xx-space">IN SIX VOLUMES</hi>
  </titlePart>
  <titlePart rendition="#xx-space"> VOLUME I.
  <lb/>
   <hi rendition="#red #x-large">POEMS AND BALLADS</hi>
   <lb/>
   <hi rendition="#x-space">FIRST SERIES</hi>
  </titlePart>
 </docTitle>
 <docImprint rendition="#center">
  <lb/>
  <pubPlace rendition="#xx-space">LONDON</pubPlace>
  <lb/>
  <publisher rendition="#red #expanded">CHATTO &amp; WINDUS</publisher>
  <lb/>
  <docDate when="1904rendition="#small">1904</docDate>
 </docImprint>
</titlePage>

要素tagsDeclは,要素renditionを規定する必要はない. 但し,少なくとも要素namespaceをひとつ含む必要がある. この要素の中には,要素tagUsageが1つ以上あり,そこで,要素teiHeaderと関連する,一番上位の要素textの下位にある要素を指定するこ とができる. 7 要素tagUsageは,当該要素がテキスト中で出現 する回数も記録するとが出来る. これは,属性occursの値として記録さ れる. また,当該要素の内容としてある散文で,使用に関する付加的な情 報を記録することも可能である.

例えば,以下のようになる.
<tagUsage gi="hioccurs="28"> Used only to mark English words italicised in the copy text.
</tagUsage>
これにより,要素hiは,要素text中で28回出現し,斜体の英単語をマー クアップする要素としてのみ使われることが記されている.
属性withIdは,選択的に使うことが可能 で,グローバル属性xml:idの値が,当該 要素中に何回使われているのかを記録する.
<tagUsage gi="pboccurs="321withId="321"> Marks page breaks in the York (1734) edition only
</tagUsage>
この例では,要素pbが,321回出現し,その全 てに識別子が付与されていることが示されている.
要素tagUsageの内容は,自動処理の情報として使 われるものではない. 従って,符号化解説の他の場所で既に示されている情報を記録するた めには,使われるべきではない. TEI準拠の文書中に,要素tagsDeclは必須ではないが,これが使われる 場合には,関連する要素を定義するために 要素tagUsageを必ず含むことが決められてい る. また,属性occursにで示される当該要素 の出現回数は,ソフトウェアが対応できるように,文書内で当該要素 が出現する回数を正確に示している必要がある.

2.3.5 参照システム宣言

要素refsDeclには,符号化の作業で使われる 参照スキームが記録される. この要素には一連の散文,または以下にある特別な要素が含まれれ る.
  • refsDecl 標準的な参照の作られ方を示す.
  • cRefPattern URIへの標準的参照を変形する,表現・変形パタンを示す.
  • refState/ 標石要素の手法として定義されている標準的な参照の構成要素をひとつ示す.
ここにある参照スキームの全てが,現行ソフトウェアで参照されてい るとは限らないことに注意して欲しい. 従って,参照スキームの選択には,符号化する側にとっての便利さと, それを処理するソフトウェア上での実際の効率を考える必要がある. 本ガイドラインで使用する参照システムについての詳細は, 3.10 参照システムにある.
参照スキームは,以下にある3つの方法のどれかで示される.
  • 散文形式.
  • 一連の,正規表現とXPathの組み合わせ.
  • 一連の標石を使ったもの.
これらの詳細は,以下で解説する. このうちの1つの方法で,要素refsDeclが記録される.

1つの文書中で複数の参照スキームを使用する場合には,TEIヘダー 中に複数の要素refsDeclを使うことができる. 但し,現行の提案では,複数ある参照スキームの整合性を確認する ことは考慮されていない.

2.3.5.1 散文法

参照スキームは,要素refsDeclにおいて,散文形式で示すこと ができる. この場合,どの要素に参照情報が書かれているの か,それは,属性値としてあるのか,または要素内容としてある のかが,明示されるべきである. また,その参照情報が利用されるときに,そこにある文字列をど のように解釈すべきかの規則も,明示されるべきである. 散文形式で示された定義は,自動的には処理することができない ことから,自動処理を前提とする場合には,この方法は推奨され ない.

例えば,以下のようになる.
<refsDecl>
 <p>The <att>n</att> attribute of each text in this corpus carries a
   unique identifying code for the whole text. The title of the text is
   held as the content of the first <gi>head</gi> element within each
   text. The <att>n</att> attribute on each <gi>div1</gi> and
 <gi>div2</gi> contains the canonical reference for each such
   division, in the form 'XX.yyy', where XX is the book number in Roman
   numerals, and yyy the section number in arabic. Line breaks are
   marked by empty <gi>lb</gi> elements, each of which includes the
   through line number in Casaubon's edition as the value of its
 <gi>n</gi> attribute.</p>
 <p>The through line number and the text identifier uniquely identify
   any line. A canonical reference may be made up by concatenating the
 <gi>n</gi> values from the <gi>text</gi>, <gi>div1</gi>, or
 <gi>div2</gi> and calculating the line number within each part.</p>
</refsDecl>
2.3.5.2 検索置換法
検索置換法とは,はじめにかなりの仕事が求められることになるが,そ の代わりに極めて柔軟な所在指定のあり方を可能にしてくれる. この詳細は16.2.5 規範参照にある.
  • cRefPattern URIへの標準的参照を変形する,表現・変形パタンを示す.
2.3.5.3 標石法

標石法とは,「標石タグ(要素)」(詳細は3.10.3 標石要素)を使う方法で, この要素により,参照に必要な情報が記録される. この手法は,先述した検索置換法と同じ参照機能を提供するもので はない. しかし,この手法を使うことで,よりシンプルな記述が可能 になるだろう.

標石要素による参照法では,複数のタグにある値を統合して実現さ れる. 各タグの存在自体が参照点となり,refStateを示しているといえる. この手法による参照宣言は,参照を構成する一連の要素refState を規定していることになる.
  • refState/ 標石要素の手法として定義されている標準的な参照の構成要素をひとつ示す.
    ed 当該標石要素が従う版を示す.
    unit 当該標石要素の場所で起こる変化の種類を示す.
    delim 参照構成要素の開始を表すデリミタを示す.
    length 参照構成要素の固定長を示す.

例えば,‘Matthew 12:34’という参照文字列には,3つの参照情報が 含まれている. 単位bookの値は,‘Matthew’である. 単位chapterの値は,‘12’である. 単位verseの値は,‘34’である. 標石要素を使うと,上記3種類の単位の値が変化する地点を示すこ とができる. 8 例えば,‘Matthew 12:34’を見つける場合,ソフトウェアは,ま ず,テキストを全て読み込み,上記3種類の単位の値が変化する 地点を見つけることになる. そして,上記3種類の単位の値が,同時に必要な状態となったと き,そこが所望する地点となるのである. 場合によっては,そのような地点は複数存在することもあるだろ う.

属性delimlengthは,参照の構成要素を指定するために 使われ,その値は,これまでに紹介してきた手法と同じように指 定される. この他の属性は,どの要素milestoneが,変化を検査する対象となるかを 指定するためのものである. どの要素milestoneも,状態の変化 を示すもので,属性unitを伴う. 属性edは選択的に付与され,この値は, 対応する要素refStateと一致するもの である. 新しい状態の値は,要素milestone に属性nを付与することで,示すことも できる. もし,状態の変化が暗に分かるものであれば,属性nは使われないかもしれない.

例えば,参照文字列xx.yyyで, xxは,第1版のページ番号を, yyyは,そのページ内の行番号を 示す場合,以下のように参照システムを宣言することができる.
<refsDecl>
 <refState
   ed="first"
   unit="page"
   length="2"
   delim="."/>

 <refState ed="firstunit="linelength="3"/>
</refsDecl>
この宣言では,以下のような標石要素を規定していることになる.
<milestone n="IIed="firstunit="page"/>
<milestone ed="firstunit="line"/>
標石要素は,テキスト中のどこでも使うことが可能で,これにより,パー ジ番号や行番号が変化する地点を示すことができる. この例で,2つ目の要素milestoneには,属性nがないことに注意して欲しい. ここでは,この値が,milestoneが出現する度に単調増加することが想定さ れている. 標石要素についての詳細は, 3.10.3 標石要素 にある.

標石要素を使った参照スキームは,考え方は単純であるが,一般的な SGML/XMLパーサでは,この機能をサポートしていない. 従って,この要素の整合性を検証するという作業は,符号化する人の負 担となる.

複数のテキスト中で使用される参照システム宣言は,各テキストのヘ ダー内で繰り返し宣言される必要はない. 各テキストの属性declsで,参照システム 宣言への相互参照を実現することができる. この詳細は,15.3 Associating Contextual Information with a Text にある.

2.3.6 分類法宣言

要素classDeclには,ヘダー内の他の場所で使わ れる,記述的な分類スキームの既定や元資料をまとめられる. 各分類スキームは,要素taxonomyで示される. ここには,単に書誌情報が書かれている場合もあれば,記述的な分 類の定義が書かれていることもある. その定義には,以下の要素が使われる.
  • classDecl 当該テキスト中で使用されている分類コードを定義する,ひとつ以上の分類法を示す.
  • taxonomy テキストの分類法を,書誌情報を参照したり,または構造化さ れた分類法を 示すことで,定義する.
  • category 記述的な分類項目を示す.利用者が定義した分類法の元に上位 分類項目中に 入れ子にしてもよい.
  • catDesc テキスト分類や分類法における分類項目を示す.簡単な散文形式またはTEI の textDescで使用される状況パラメータで示される.
要素taxonomyには,2つの機能があるといえる. 公的な分類法,例えば,デューイ分類法のような,よく知られてい るものについては,それを規定した用語集の書誌情報を示すだけに なる.
<taxonomy xml:id="ddc12">
 <bibl>
  <title>Dewey Decimal Classification</title>
  <edition>Abridged Edition 12</edition>
 </bibl>
</taxonomy>
あまり知られていない参照スキームの場合,要素taxonomyには,書誌情報に加えて, 分類法そのものの解説が記録されることがある. 要素categoryには,当該分類法の,各分類の情報が 記されている. その各分類は,要素catDescの内容により定義される. 具体的には,散文またはクラスmodel.catDescPartの要 素を使い,定義される. スキーマ中にコーパスモジュールが含まれている場合には,要素textDesc を使うことが可能で,これにより,いわゆる「状況依存パラメータ」に よるテキスト分類が可能となる(この詳細は15.2.1 The Text Descriptionを参照). コーパスモジュールが使われていない場合には,このクラスは使えない ことから,要素catDescの内容は,テキストデータのみになる.
ある分類が,さらに下位区分される際には,当該下位区分は,分類の 構造と同じように入れ子化された要素categoryで示される. 分類は,階層構造を作るために,任意の数だけ深く入れ子化すること が可能である. 要素categoryには,ユニークな値を持 つ属性xml:idが付与され,これは要素 catRefから参照されること になる.
<taxonomy xml:id="b">
 <bibl>Brown Corpus</bibl>
 <category xml:id="b.a">
  <catDesc>Press Reportage</catDesc>
  <category xml:id="b.a1">
   <catDesc>Daily</catDesc>
  </category>
  <category xml:id="b.a2">
   <catDesc>Sunday</catDesc>
  </category>
  <category xml:id="b.a3">
   <catDesc>National</catDesc>
  </category>
  <category xml:id="b.a4">
   <catDesc>Provincial</catDesc>
  </category>
  <category xml:id="b.a5">
   <catDesc>Political</catDesc>
  </category>
  <category xml:id="b.a6">
   <catDesc>Sports</catDesc>
  </category>
 </category>
 <category xml:id="b.d">
  <catDesc>Religion</catDesc>
  <category xml:id="b.d1">
   <catDesc>Books</catDesc>
  </category>
  <category xml:id="b.d2">
   <catDesc>Periodicals and tracts</catDesc>
  </category>
 </category>
</taxonomy>
特定のテキストと分類をリンクさせるためには,要素textClass内にある要素catRefを使うことになる. この詳細は,2.4.3 分類にある. 当該分類法が,木構造を超えた分類を認める場合には,複数の分類が 要素catRefで示されることにな る. 例えば,以下にある例のようなもので,ここでは,‘Press Reportage’の下位区分として,先に定義した区分のうち,‘Daily’,‘National’, ‘Political’が想定されている.
<catRef target="#b.a1 #b.a3 #b.a5"/>

2.3.7 ソフトウェア情報要素

時に,符号化された資源の処理に連する情報を,ヘダー中に記録し ておくと便利なことがある. 例えば,そのような情報として,以下のようなものがあるだろう.
  • このファイルが以前に開封され,編集されたことがあるかどう か,どの版がその対象になったかを,ソフトウェアが知ること ができる.
  • ソフトウェアを主因とする問題の原因を探るために,どのソフ トウェアが最後に当該ファイルを編集したのかを知ることがで きる.
  • 当該ファイルを編集した時のソフトウェアに付いての情報を, 利用者が知ることができる.
  • ソフトウェアが,編集したファイル中の,どの要素に注目して いるのかを宣言することができる. これにより,他のソフトウェアや編集者は,どの場所にある変 更点に中止すべきかが分かるようになる.
クラスmodel.applicationLike は,要素applicationを含んでいる. この要素には,要素appInfoにある情報が記録される.
  • appInfo TEIファイルを編集したソフトウェアに関する情報を示す.
  • application 当該文書に作用するソフトウェアに関する情報を示す.
    ident 当該ソフトウェアの識別子を示す.これは,版番号や表示名とは異なる.
    version 当該ソフトウェアの版番号を示す.識別子や表示名とは異なる.

要素applicationは,当該ファイルに対して,ソフト ウェアが採るべき状態を示すものである. この要素は,クラスatt.datable のメンバーであり,日付や時間などの情報を属性で示す. 属性identと属性versionは,ソフトウェアとそのバージョン をユニークに指定するために使われる (例えば,ImageMarkupTool 1.5). これは,ソフトウェアがファイルを処理する際に,毎回,新しい 要素applicationを付加するということではな い.

以下にある例では,これらの要素が,ソフトウェア‘Image MarkupTool’のバージョン1.5が,2006年の6月に最終変更されたファ イルの2つの部分に関心を持っている,という情報を記録している. 当該部分は,2つの要素ptrの参照先として,URLで示されてい る.
<appInfo>
 <application version="1.5ident="ImageMarkupToolnotAfter="2006-06-01">
  <label>Image Markup Tool</label>
  <ptr target="#P1"/>
  <ptr target="#P2"/>
 </application>
</appInfo>

2.3.8 モジュール別の宣言

これまでに紹介してきた要素は,どのスキーマでも使うことができ るものである. スキーマの中に,他のTEIモジュールを特別に導入した場合には, それぞれのモジュールに特化した構成要素が使えるようになる. これらの詳細は,各モジュールでの解説で示されるので,ここでは 簡単に紹介する.

要素fsdDeclは,「素性モジュール」が組み込まれた ときに使うことができる. この要素により,「素性宣言」(詳細は18.11 素性システム宣言)が記 録され,そこでは,文書中で使われる「素性構造」(詳細は18 素性構造)が示される.

要素metDeclは,「韻文モジュール」が組み込まれた ときに使うことができる. この要素により,テキスト中で使用される韻律記法スキームが記録 される. この詳細は,6.3 韻分析 にある. この要素は,散文または,一連の要素metSymから構成される.

要素variantEncoding は,「校合モジュール」が組み込まれたときに使うことができる. この要素により,テキストの異なりを符号化する手法が記録される. この詳細は,12.2 校本とテキストの関連付けにある.

2.4 プロファイル解説

要素profileDescは,TEIヘダーの3番目の 上位要素である. この要素は選択的に使用される. この要素により,符号化の対象となったテキストやコーパスの,各 種記述的な側面が記録される.
  • profileDesc 書誌情報的ではない詳細な解説を示す.例えば,言語や特殊言 語,生成されたときの状況,参加者など.
理屈からすれば,ヘダーにあるどの構成要素も,テキストの性格を 記録するためのものといえる. 例えば,書かれたテキストの著者や,出版時のタイトル,その日付 など,これら全ては,本節で解説した様々なパラメータと同じよう に,当該テキストを記録しているといえる. 一般的な書誌情報で扱われているような情報について,ここでは扱っ ていない理由は,既にその種の情報はTEIヘダーの至る所で扱って いるからである.
要素profileDescは,以下にある3つの要 素を選択的にとる.
  • creation テキストの作成に関する情報を示す.
  • langUsage テキスト中にある言語,特殊言語,社会的方言,方言などを示す.
  • textClass 標準的な分類スキーム,分類語彙などにより,テキストの性格 や話題を示す情報をまとめる.
これらの要素の詳細は,以下で解説する.
要素profileDescは,コーパスモジュールを使う場合 には,この他にも,3つの要素をとることができる. この詳細は,15 Language Corporaにある.
  • textDesc 状況パラメータにより,テキストの情報を示す.
  • particDesc 言語交流における,特定可能な発話者,声,その他の参加者を示す.
  • settingDesc 言語交流が行われた状況設定を,散文または一連の要素settingに より示す.
これら3つの要素については, 15.2 Contextual Information を参照のこと.
以下にある要素は,「転記モジュール」が導入されたときに使用で きる要素profileDescの中で使うことができる. この詳細は,11 Representation of Primary Sources にある.
  • handNotes 元資料にある特定可能な筆致を記録する,ひとつ以上の要素 handNoteを示す.
この要素の詳細は,11.4.1 Document Handsにある. この要素により,複数の要素handNoteにより,手書き資料中で特定され る異なる筆致を記録することができる. 要素handNoteでは,構造化された記 述が可能で,「手書きモジュール」が導入されたときに使うことが できる. この詳細は,10 Manuscript Descriptionにある. つまり,要素handNoteは,「転記モジュール」または 「手書きモジュール」が導入されたときにのみ,ヘダーモジュール 内で宣言することができる. 詳細は,11.4.1 Document Handsを参照のこと.

2.4.1 作成

要素creationは,当該テキストのオリジ ナルについての情報,例えば,日付や場所が記録される.
  • creation テキストの作成に関する情報を示す.
構成要素の日付や場所は,言語変化の研究においては,重要とな る. このような情報は,書誌情報からは,はっきりとは推測できない ことから,要素creationには,これらの情報を記録 するために使うことができる.
<creation>
 <date when="1992-08">August 1992</date>
 <rs type="city">Taos, New Mexico</rs>
</creation>

2.4.2 言語

要素langUsageは,要素 profileDesc内で使われ,言語,特殊 言語,社会方言,方言などが記録される. この要素は,複数の要素languageをとり,各要素で1つの言語の情 報,とりわけ,当該テキスト中の量が記録される. この要素では,規格化されていない文字やグリフについての情報は, 記録すべきではないことに注意して欲しい. この種の情報は,符号化解説としてある要素charDeclに記録されるべきである. この詳細は,5 標準化されていない文字と字形の表現 にある.
  • langUsage テキスト中にある言語,特殊言語,社会的方言,方言などを示す.
  • language テキスト中にあるひとつの言語または特殊言語を示す.
    usage 当該言語がテキスト中で使用されているおよその割合を示す.
    ident 当該要素で記録される言語を特定するために, BCP 47で 定義されている言語コードを示す.BCP47は, グローバル属性xml:langでも使用される.

要素languageは,文書中で使われる各言語毎に 用意される. この要素には,属性identを使い, vi.i言語の識別にある適切 な言語識別子を付与するべきである. とりわけ,文書中で,拡張言語識別子が,属性xml:langの値として使われている際に, この情報は重要である.

例えば,以下のようになる.
<langUsage>
 <language ident="fr-CAusage="60">Québecois</language>
 <language ident="en-CAusage="20">Canadian business English</language>
 <language ident="en-GBusage="20">British English</language>
</langUsage>

2.4.3 分類

要素profileDesc の2番目の構成要素は,要素textClassである. この要素は,以下にある方法で,テキストを分類するために使われ る.
  • 国際的な分類法として知られている,例えば,デューイ分類法, 国際十進分類法,コロン分類法,LC分類法など,図書館や文書 を扱う仕事で広く使用されている分類法を参照する.
  • キーワードの一覧を示す.例えば,英国図書館やLCの目録で使 われているようなもの.
  • 当該資料が関連する領域で認められている,特化したテキスト 分類法を参照する. この種の分類法では,15.2.1 The Text Descriptionで解説するよ うな,状況依存パラメータが使われてるかもしれない. また,15.2.2 The Participant Descriptionで解説 するような,人口統計要素が使われているかもしれない.
これらのうち,とりわけ最後の要素は,既存のコーパスやコレクショ ンを扱う際には重要である. これにより,再分類をするコストが避けられ,また組織上の方針も 記録することができる.
以下の要素が,用意されている.
  • keywords テキストの話題や性格を特定するキーワードや句のリストを示す.
    scheme 当該キーワードリストが定義されている統制語彙を示す.
  • classCode 当該テキストで使用されている,ある規格に従った分類コードを示す.
    scheme 当該分類法を定義する.
  • catRef/ 分類法やテキスト分類中の,ひとつ以上の分類項目を定義する.
    target 当該分類項目を定義する.

要素keywordsは,キーワードリストを示すことで,各 テキストを分類するために使われる. このキーワードは,テキストのテーマ,主題,形式,日付などを示 すものである. スキームによっては,キーワードの順番が重要なことがある. 例えば,大分類から小分類へと示される場合である. キーワードリスト自体が,構造化されていることがある. 本ガイドラインでは,この件に関して,推奨するものはない. 可能であれば,そのようなキーワードには,英国図書館やLCで出版 物を記録する際に使われている,または,当該分野で使われる,出 版されたキーワード集を使うべきである.

属性schemeは,キーワードの元資料を 示すために使われる. この属性値は,キーワードの詳細が記録されている要素taxonomyにある属性xml:idの値で示される. 要素taxonomy は,TEIヘダーの符号化宣言の要素classDecl内にある. この詳細は2.3.6 分類法宣言にある. 例えば,以下のようになる.
<keywords scheme="#lcsh">
 <list>
  <item>Data base management</item>
  <item>SQL (Computer program language)</item>
 </list>
</keywords>
<keywords scheme="#lcsh">
 <list>
  <item>English literature -- History and criticism -- Data processing.</item>
  <item>English literature -- History and criticism -- Theory, etc.</item>
  <item>English language -- Style -- Data processing.</item>
  <item>Style, Literary -- Data processing.</item>
 </list>
</keywords>
要素classCodeは,よく知られている分類法, 例えばデューイ分類法などのコードを使い,個別テキストを分類 するために使われる. 属性schemeは,分類スキームが示される. この属性値には,先に解説した要素keywordsと同じような,参照情報が付与 される. または,以下の例にあるよう,スキームの元資料の場所を参照する.
<classCode scheme="http://www.example.com/udc">005.756</classCode>
<classCode scheme="#lc">QA76.9</classCode>
<classCode scheme="http://www.example.com/udc">820.285</classCode>

要素catRef は,個別テキストを,複数の要素categoryを参照することで分類す るために使われる. 要素category(詳細は 2.3.6 分類法宣言)には,当該分類法における,特定 の分類に関する情報が記録される. 各分類には,ユニークな識別子が付与されている必要がある. これは,要素catRef にある属性targetの値として使用される.

もちろん,ひとつのテキストが複数の分類に区分されることはある. このような場合,複数の識別子が,要素catRefにある 属性targetの値として必要になるだろう. 例えば,以下のようなものである.
<catRef target="#b.a4 #b.d2"/>
規定されている分類では上手くいかない時には, 属性schemeに,必要となる分類法を指定 することができる. 例えば,以下のような例である.
<catRef
  target="#b.a4 #b.d2"
  scheme="http://www.example.com/browncorpus"/>

<catRef target="http://www.example.com/SUC/#A45"/>
この例では,同じテキストに,分類b.a4b.d2が付与され,さらに,ブラウンコーパス 上の分類(http://www.example.com/browncorpus)‘A45’ が付与されている.

要素catRefと要素 classCodeの違いは, 前者では,分類コードが網羅的に規定されている中から値を特定する のに対して,後者では,そうではない,記述的な分類システムなどか ら値を指定することが想定されている.

2.5 改訂解説

TEIヘダーの最後の上位要素は,要素revisionDescである. この要素には,テキストが変更された様子が記録されている. この要素は選択的であるが,使われることが強く推奨される. ここには,文書が改訂や修正など,変更が加えられた情報が記され ており,これは研究者間やシステム間でファイルが交換される際に, 大変重要な情報となる. このような変更履歴がなければ,ファイルの版はいとも簡単に混同 してしまうだろう. また,ファイルに施された少しの,しかし重要な変更点を前の版と の比較で示されたとしても,それを簡単に見落としてしまうだろう. TEI準拠のファイルでは,変更が施された場合には,必ずそれを記 録する必要がある.
  • revisionDesc ファイルの改訂履歴を示す.
  • change 研究者間で共有されている電子テキストの特定の版に対して施 された変更や修正を示す.

改訂解説では,TEIヘダーが付加されるテキストの変更に関する情報が 記録される. また,TEIヘダー自体の変更についても記録されることが推奨され る(もちろん,この改訂解説そのものの変更も対象となる). 少なくとも,当該ヘダーが作成された日付を示す項目くらいは,記 述すべきである.

改訂の記録は,各変更を1項目としてまとめたリストとなる. これは,要素listにより記録される. この詳細は,3.7 リストにある. または,一連の要素changeにより記録される. この要素には,より詳細な変更の情報が記録される. 属性dateと属性respには,変更の日付と,変更の責任者につ いての情報が記録される. 変更そのものに関する記録は,散文形式で記録される. 複数の変更に対して,数値を関連させる場合(例えば,版の番号)に は,グローバル属性nを使い,それを示 すことができる.

変更の記録は,最新のものを始めに記録する順番で示されること が推奨される.

例えば,以下のようになる.
<revisionDesc>
 <change n="RCS:1.70when="2001-04-11who="#ZM">On Wed, 11 Apr 01
 <name key="zmizuho.zgkxml:id="ZM">Zoë Mizuho</name>
   made correx entries (unfinished from <date when="1999-03-05">March 1999</date>.) all in text not tag.
   supravalidated.
 </change>
 <change n="RCS:1.62when="1999-08-24who="#JR">On Tue, 24 Aug 99
 <name key="jrussom.zxgxml:id="JR">Jacque Russom</name>
   removed vuji markup from FOREIGN and BIBL contents;
   standardized vuji tags. </change>
 <change n="RCS:1.47when="1999-07-05"> On Mon, 05 Jul 99
 <name key="edillon.pal">Erica Dillon</name>
   deleted cit elements in Concluding matter, and propagated
   attributes from this element to the q element. However,
   only q elements exist in this text, where the quote element
   actually seems to be more appropriate. This should be
   looked into.
 </change>
 <change n="RCS:1.45when="1999-06-30who="#CM">On Wed, 30 Jun 99
 <name key="cmah.dcixml:id="CM">Carole Mah</name>
   fixed n= attribute on PB; they were mis-numbered.
 </change>
 <change when="1997-03-13">On 13 March 1997
 <name key="lmayer.ins">Lauryn S. Mayer</name>
   began capture using Author/Editor v. 3.1 on Mac with
   version 1.0.14 of DTD.
 </change>
 <change when="1997-06-12who="#LM">On 12 June 1997
 <name key="lmayer.insxml:id="LM">Lauryn S. Mayer</name>
   began entering corrections with version 1.1.2a of DTD
 </change>
</revisionDesc>

2.6 最小構成と推奨構成

TEIヘダーには,当該テキストに関する数多くの情報が記録されて いる. 例えば,元資料,符号化の方法,改訂について,使用される言語, 制作時の段取りや参加者などの状況,などである. このような情報の多様性は,当ガイドラインに準拠した電子テキス トの使用範囲が多様であることが関連している. 但し,全てのTEIヘダーが,ここで紹介した全ての情報を記録すべ きというではない.

TEIヘダー内に記録される情報は,当該テキストの種類や,その使 用目的により,その量は変わってくる. 例えば,身内で使われる際には,当該テキストを弁別する,書誌情 報の識別子のみをTEIヘダーに記録すればよいとすることもある. また,当該テキストがより多くのソフトウェアで使用される場合に は,できるだけ明確に,書誌情報ならびに記述的情報を記録し, TEIヘダーのみから全ての情報を得られるようにすることもあるだ ろう. このような場合,TEIヘダーには,多くの情報が記録され,殆どマ ニュアルといえるものになるだろう. 実際のケースでは,これら2つのケースの中間に位置づけられるだ ろう. 但し,テキストベースのコーパスでは,より後者に近いものになる 傾向はある. 本節では,まず,TEIヘダーに記録される書誌情報の最小構成の例 を示し,次に,一般に推奨される例を紹介する.

TEIヘダーの最小構成は,例えば以下のようなものになる.
<teiHeader>
 <fileDesc>
  <titleStmt>
   <title>Thomas Paine: Common sense, a
       machine-readable transcript</title>
   <respStmt>
    <resp>compiled by</resp>
    <name>Jon K Adams</name>
   </respStmt>
  </titleStmt>
  <publicationStmt>
   <distributor>Oxford Text Archive</distributor>
  </publicationStmt>
  <sourceDesc>
   <bibl>The complete writings of Thomas Paine, collected and edited
       by Phillip S. Foner (New York, Citadel Press, 1945)</bibl>
  </sourceDesc>
 </fileDesc>
</teiHeader>

TEIヘダーで必須の構成要素は,要素fileDescのみである. この要素の中には,要素titleStmt, 要素publicationStmt, 要素sourceDescが,必ず含まれる. 要素titleStmtには,当該テキストのタイトルが記録される. また,その著者も記録されるべきである. 著者が「不明・不詳」の場合でも,そうすべきである. また,要素respStmtを使い,責任に関する情報も記 録すべきである. 要素publicationStmtには,出版者や頒布者など, 当該ファイルの流布に責任を持つものが記録される. 要素sourceDescには,少なくとも,当該テキストの(もしあれば)元資 料に関する書誌情報が,記録されるべきである.

ここに,付加的な情報を記録した推奨例を示す. ここには,多くの利用目的に対応する書誌情報が記録されており,と りわけ,AACE2に合致した書誌情報になっている. また,当該テキストの符号化における規則も記録されている. また,LC分類に合致した情報や,当該ファイルの改訂についての情報 も記録されている.
<teiHeader>
 <fileDesc>
  <titleStmt>
   <title>Common sense, a machine-readable transcript</title>
   <author>Paine, Thomas (1737-1809)</author>
   <respStmt>
    <resp>compiled by</resp>
    <name>Jon K Adams</name>
   </respStmt>
  </titleStmt>
  <editionStmt>
   <edition>
    <date>1986</date>
   </edition>
  </editionStmt>
  <publicationStmt>
   <distributor>Oxford Text Archive.</distributor>
   <address>
    <addrLine>Oxford University Computing Services,</addrLine>
    <addrLine>13 Banbury Road,</addrLine>
    <addrLine>Oxford OX2 6RB,</addrLine>
    <addrLine>UK</addrLine>
   </address>
  </publicationStmt>
  <notesStmt>
   <note>Brief notes on the text are in a
       supplementary file.</note>
  </notesStmt>
  <sourceDesc>
   <biblStruct>
    <monogr>
     <editor>Foner, Philip S.</editor>
     <title>The collected writings of Thomas Paine</title>
     <imprint>
      <pubPlace>New York</pubPlace>
      <publisher>Citadel Press</publisher>
      <date>1945</date>
     </imprint>
    </monogr>
   </biblStruct>
  </sourceDesc>
 </fileDesc>
 <encodingDesc>
  <samplingDecl>
   <p>Editorial notes in the Foner edition have not
       been reproduced. </p>
   <p>Blank lines and multiple blank spaces, including paragraph
       indents, have not been preserved. </p>
  </samplingDecl>
  <editorialDecl>
   <correction status="highmethod="silent">
    <p>The following errors
         in the Foner edition have been corrected:
    <list>
      <item>p. 13 l. 7 cotemporaries contemporaries </item>
      <item>p. 28 l. 26 [comma] [period] </item>
      <item>p. 84 l. 4 kin kind </item>
      <item>p. 95 l. 1 stuggle struggle </item>
      <item>p. 101 l. 4 certainy certainty </item>
      <item>p. 167 l. 6 than that </item>
      <item>p. 209 l. 24 publshed published </item>
     </list>
    </p>
   </correction>
   <normalization>
    <p>No normalization beyond that performed
         by Foner, if any. </p>
   </normalization>
   <quotation marks="allform="std">
    <p>All double quotation marks
         rendered with ", all single quotation marks with
         apostrophe. </p>
   </quotation>
   <hyphenation eol="none">
    <p>Hyphenated words that appear at the
         end of the line in the Foner edition have been reformed.</p>
   </hyphenation>
   <stdVals>
    <p>The values of <att>when-iso</att> on the <gi>time</gi>
         element always end in the format <val>HH:MM</val> or
    <val>HH</val>; i.e., seconds, fractions thereof, and time
         zone designators are not present.</p>
   </stdVals>
   <interpretation>
    <p>Compound proper names are marked. </p>
    <p>Dates are marked. </p>
    <p>Italics are recorded without interpretation. </p>
   </interpretation>
  </editorialDecl>
  <classDecl>
   <taxonomy xml:id="lcsh">
    <bibl>Library of Congress Subject Headings</bibl>
   </taxonomy>
   <taxonomy xml:id="lc">
    <bibl>Library of Congress Classification</bibl>
   </taxonomy>
  </classDecl>
 </encodingDesc>
 <profileDesc>
  <creation>
   <date>1774</date>
  </creation>
  <langUsage>
   <language ident="enusage="100">English.</language>
  </langUsage>
  <textClass>
   <keywords scheme="#lcsh">
    <list>
     <item>Political science</item>
     <item>United States -- Politics and government —
           Revolution, 1775-1783</item>
    </list>
   </keywords>
   <classCode scheme="#lc">JC 177</classCode>
  </textClass>
 </profileDesc>
 <revisionDesc>
  <change when="1996-01-22">
   <name>CMSMcQ</name> finished proofreading
  </change>
  <change when="1995-10-30">
   <name>L.B. </name> finished proofreading
  </change>
  <change when="1995-07-20">
   <name>R.G. </name> finished proofreading
  </change>
  <change when="1995-07-04">
   <name>R.G. </name> finished data entry
  </change>
  <change when="1995-01-15">
   <name>R.G. </name> began data entry
  </change>
 </revisionDesc>
</teiHeader>

本章で解説した要素について,その推奨される利用例については,各 要素に関連する章や,各要素のリファレンスにも記載されている.

2.7 書誌情報に関する注釈

本章が書かれた重要な背景として,TEIヘダー内には,コンピュー タ上で使用されるファイルにとって処理可能な情報が記 録されるということがある. ファイルヘダーというものは,図書館における書誌情報と同じもの ではなく,一般の作業からみれば,異なったものである. TEIヘダー内には,一般的な書誌情報には含まれていない情報が, 数多く記録されている. しかしながら,TEIヘダーからも書誌情報は検索できるように記録 されるべきで,TEIヘダーと図書館における書誌情報の相互交換は, できるだけ簡単に実現されるべきである. 電子ファイルのヘダー情報と,図書館における書誌情報の対応関係 は,必ずしも明確ではないけれども,TEIヘダーファイルの策定に 影響を与えている,書誌情報について知ることは有益であろう. 例えば,以下のような書誌情報の規格がある.
ISBD(G)
国際標準書誌記述は,国際的な規格で,書誌情報の記録に関す る定義である. ISBDには,いくつかの派生系があり,例えば,ISBD(M)は単行 本について,ISBD(ER)は電子媒体についてのものである. これらの派生系も,中心としてあるISBD(G)と同じスキームに 従うことになる. 但し,特定の資料に特化した解釈がされることになる.
AACR2
英米目録規則第2版は,1978年に出版された. その修正版が1988年に出版されている. AACR2は,一般的な(訳注:欧米の)図書館で使われている書誌 情報の書き方についてのガイドラインである. AACR2は,ISBD(G)に則っており,その意味では,ISBDを補うも のといえる. AACR2には,ISBDに従い,インデックスをどのように構成し, 相互参照を記録上からどのように実現するかについての解説がある.
ANSI Z.39.29
ANSI Z.39.29は,アメリカの国家規格で,書誌参照についての 規格である. データベース上にある書誌データから,書誌情報,作品,要旨, 出版などのリストを作る際に使われることが想定されている. この規格は,現在は,停止され,改訂作業も止まっている. これと似た領域を規定する国際規格として,ISO 690:1987があ る. 他にも,BS 1629:1989,BS 5605:1978,BS6371:1983がある.

2.8 TEIヘダーモジュール

Contents « 1 TEIの基礎構造 » 3 コアモジュール

注釈
4.
この大変に影響力のある,1969年にIFLAから提示された規格につ いての詳細は,http://www.ifla.org/VII/s13/pubs/isbd.htm にある. 書誌情報に関して,TEIが提案する内容と,他の規格との関連につい ては,2.7 書誌情報に関する注釈を参照のこと.
5.
機械可読の書誌情報を作成する場合には,固有名詞の表記は,全て, LCが定めたリストを使うことが推奨される.
6.
現行のTEIガイドラインでは,この制約は強制されるものではない.
7.
TEIコーパス(15 Language Corpora) の場合,ヘダーにある要素tagsDeclは,各コーパスで共通するタ グが記録される. 一方,個別テキストにあるヘダーにあるこの要素では,当該テキス トでのみ使用されるタグが記録される.
8.
要素milestone 自体に,この場所がどのような「変数値」を示すのかを, 属性edや属性unitを使い記すことができる.


Copyright TEIコンソーシアム 2007 Licensed under the GPL. Copying and redistribution is permitted and encouraged.
Version 1.0.