20 非階層構造

Contents

XMLでは,堅固なピラミッドスタイルの階層構造をした文書モデルを 採用している. 本ガイドラインでは,至る所で,XML上で厳密な階層構造によりテキスト 構造を自然に表現する際に生じる問題,または,他のマークアップ構 造と競合することで生じる問題について扱ってきた. 例えば,そのような例として,以下のものがある.

入れ子化されない情報は,XMLのスキームで符号化する際に,根本的 な問題を生むことになる. 現行では,テキスト中に現れる,または見いだされる情報を,形式的・ 機械的に妥当なものとして,簡単な形式で,所望する全ての属性をま とめることは出来ないことを,予め示しておくべきであろう. 非階層構造の情報を表示することは,各種の利点や欠点の,バラン スを取ることが必須の課題となる.

本ガイドラインでは,非階層構造の情報を取り扱ういくつかの手法を 紹介する. これらの手法には,TEIに準拠した,または準拠可能文書で使う手法 もあれば,TEIに拡張が必要となる手法もある.
続く節では,これらの手法について,利点・欠点を簡単に紹介する. これらの手法を実際に紹介する際に,以下の2つの詩を例として使う ことにする. はじめの例は,ワーズワースのScorn not the sonnetである.
Scorn not the sonnet; critic, you have frowned,
Mindless of its just honours; with this key
Shakespeare unlocked his heart; the melody
Of this small lute gave ease to Petrarch's wound.
次の例は,ロバート・ピンスキーのEssay on Psychiatristsの第4章から3番目の連(スタンザ)である.
Catholic woman of twenty-seven with five children
And a first-rate body—pointed her finger
at the back of one certain man and asked me,
"Is that guy a psychiatrist?" and by god he was! "Yes,"
She said, "He looks like a psychiatrist."
Grown quiet, I looked at his pink back, and thought.
この2つのテキストは,複数の方法で,分析することができる. 例えば,はじめに「韻律」に注目して,韻律素性を符号化することが ある. 行分割,大きな詩の連や編,強弱や音節パタン,頭韻,押韻といった散在 する素性などが対象となる. また,「文法」に注目して,言語学的・修辞的素性を符号化すること がある. 音素,形態素,単語,句,節,文などが対象となる. また,「対話」に注目して,発話を符号化することがある. 話者と相手を分けること,直接引用として個々の発言を特定すること などが対象となる. ここで考える例では,比較的簡単な競合問題に限定する. 例えば,「韻律」に注目する場合には,韻文行や行集合のみを符号化 することになる. また「文法」に注目する場合には,文の符号化に限定する. また「対話」に注目する場合には,発話者と直接引用とを分けること にする.

20.1 複数の符号化方法

同じ情報にある2つ(またはそれ以上)の競合する構造を解きほぐす,理 念上,一番簡単な方法は,それらを1つの視点毎に,2つ(またはそ れ以上)の視点の数だけ符号化する事である.

例えば,Scorn not the sonnetを「韻律」 の視点で符号化すれば,各韻文行を要素lを使い,以下 のように記録することが出来る.
参考文献
<l>Scorn not the sonnet; critic, you have frowned,</l>
<l>Mindless of its just honours; with this key</l>
<l>Shakespeare unlocked his heart; the melody</l>
<l>Of this small lute gave ease to Petrarch's wound.</l>
この同じテキストを,「文法」に注目すれば,韻文行を文と置き換 えて,以下のように記録することが出来る.
参考文献
<p>
 <s>Scorn not the sonnet;</s>
 <s>critic, you have frowned, Mindless of its just honours;</s>
 <s>with this key Shakespeare unlocked his heart;</s>
 <s>the melody Of this small lute gave ease to Petrarch's wound.</s>
</p>
同様に,ピンスキーの作品を例に取れば,韻律,文法,対話の視点 により,3つの方法でテキストを符号化することが出来る.
参考文献
<lg>
 <l>Catholic woman of twenty-seven with five children</l>
 <l>And a first-rate body—pointed her finger</l>
 <l>at the back of one certain man and asked me,</l>
 <l>"Is that guy a psychiatrist?" and by god he was! "Yes,"</l>
 <l>She said, "He <emph>looks</emph> like a psychiatrist."</l>
 <l>Grown quiet, I looked at his pink back, and thought.</l>
</lg>
参考文献
<p>
 <s>Catholic woman of twenty-seven with five children And a first-rate
   body—pointed her finger at the back of one certain man and asked me,
   "Is that guy a psychiatrist?" and by god he was!</s>
</p>
<p>
 <s>"Yes," She said, "He <emph>looks</emph> like a psychiatrist."</s>
</p>
<p>
 <s>Grown quiet, I looked at his pink back, and thought.</s>
</p>
参考文献
<ab>Catholic woman of twenty-seven with five children And a first-rate
body—pointed her finger at the back of one certain man and asked me,
<said>Is that guy a psychiatrist?</said> and by god he was!
<said>Yes,</said> She said, <said>He <emph>looks</emph> like a
  psychiatrist.</said> Grown quiet, I looked at his pink back, and
thought.</ab>

この手法は,TEIに準拠している. この手法の利点は,それぞれの視点がデータ中に明示されているこ と,簡単に処理できることである. この手法の欠点は,同一テキスト内容の複数のコピーを管理する必 要があること(内容の一貫性をなくしやすい),別のファイルに記録 された場合,複数の視点の関連性を明示することが出来ないことが ある. 複数の視点で記録されたデータや,ある視点のデータから他の視点 のデータを含むファイルを処理する為にアクセスすることは,難し い. 78

20.2 空要素を使った境界

ひとつのXML文書中に非階層構造の情報を記録する,2つ目の方法 は,入れ子化しない部分の,開始点と終了点を作ることである. これにより,当該テキストの階層構造からは外れているテキストの 素性を,その開始点と終了点が処理されることになっても,当該文 書の妥当性を保つことが出来る. この手法の欠点は,XML要素ひとつで,入れ子化しない部分を示す ことは出来ず,結果として,XMLデータを処理することが難しくな ることである.

開始点と終了点を作るために使われる空要素は,「部分境界(segment-boundary)要素」 または「部分境界デリミタ」と呼ばれている. この手法は,さらにいくつかの手法に分けられる.

TEIでは,一般的な構造素性を表現するために,テキスト素性の開 始点を示す標石要素を用意している. そのような標石要素として,要素lbpbcbhandShiftや,一般的な 要素milestoneがある. 例えば,要素lb は,ページ上にある詩の物理的1行や,その文法上の単位を文に分 けるといった,2つの目的で使うことができる.
参考文献
<p>
 <s>
  <lb n="1"/>Scorn not the sonnet;</s>; <s>critic, you have
   frowned, <lb n="2"/>Mindless of its just honours;</s>
 <s>with this key <lb n="3"/>Shakespeare unlocked his heart;</s>
 <s>the melody <lb n="4"/>Of this small lute gave ease to Petrarch's
  wound.</s>
</p>

これらの要素を使うことは,TEIに準拠している. 但し,各標石要素の意味は,決められていることに注意すべきであ る. 例えば,要素lb は,新しい(印刷)行の始まりを示す,という意味がある. 現代では,詩の多くは,印刷上と韻律上の行は対応しているが,要 素lbは,必ずしも,韻文行 を記録しているとは限らない. 韻文を符号化する,例えば,古英語の写本を記録する場合には,物 理的な行は,韻文行を表しているわけではなく,これらは対応して いない.

部分の境界は,一般的な標石要素anchorで示すこと も可能である. 属性を利用して,境界の素性や,開始点・終了点の区別を記録する ことが出来る.
参考文献
<l>
 <anchor subtype="sentenceStarttype="delimiter"/> Scorn not the sonnet; <anchor subtype="sentenceEndtype="delimiter"/>
 <anchor subtype="sentenceStarttype="delimiter"/> critic, you have frowned,
</l>
<l>Mindless of its just honours; <anchor subtype="sentenceEndtype="delimiter"/>
 <anchor subtype="sentenceStarttype="delimiter"/> with this key</l>
<l>Shakespeare unlocked his heart; <anchor subtype="sentenceEndtype="delimiter"/>
 <anchor subtype="sentenceStarttype="delimiter"/> the melody</l>
<l>Of this small lute gave ease to Petrarch's wound. <anchor subtype="sentenceEndtype="delimiter"/>
</l>

この手法は,TEIに準拠している.

もうひとつの方法は,区切られる素性や,その境界について,より 多くの情報を記録するために,自前の要素を作り出すことである. これにより,必要とする情報は,属性値や,要素名として,表現す ることが出来る. 例えば,boundaryStart element="sentence"/... boundaryEnd element="sentence"/や,sentenceBoundary position="start"/... sentenceBoundary position="end"/や,sentenceBoundaryStart/... sentenceBoundaryEnd/といった具合である.
参考文献
<l>
 <sentenceBoundaryStart xmlns="http://www.example.org/ns/nonTEI"/>Scorn not the sonnet;
<sentenceBoundaryEnd xmlns="http://www.example.org/ns/nonTEI"/>
 <sentenceBoundaryStart xmlns="http://www.example.org/ns/nonTEI"/>critic, you have frowned,
</l>
<l>Mindless of its just honours; <sentenceBoundaryEnd xmlns="http://www.example.org/ns/nonTEI"/>
 <sentenceBoundaryStart xmlns="http://www.example.org/ns/nonTEI"/>with this key</l>
<l>Shakespeare unlocked his heart; <sentenceBoundaryEnd xmlns="http://www.example.org/ns/nonTEI"/>
 <sentenceBoundaryStart xmlns="http://www.example.org/ns/nonTEI"/>the melody</l>
<l>Of this small lute gave ease to Petrarch's wound. <sentenceBoundaryEnd xmlns="http://www.example.org/ns/nonTEI"/>
</l>

このような自前の要素を,TEIの要素や属性と,情報が失われるこ となく,置き換えることが出来れば,この手法はTEIに準拠したも のとなる(23.3 Conformance). この様な自前の要素が,TEIが規定する要素では捉えきれない情報 や区分を含んでいる場合には,この手法は,TEIを拡張したものと なる.

テキスト素性を入れ子化する際に使われる要素(例えば, 要素said,要素s,要素 lなど)は, 空要素として使うことで,記録する素性が,構造の境界を超えてし まうような場合に,その部分境界を示すものとして使うことができる. また,付加的な属性(例えば,以下の例ではsIDeID)を当該要素に付与することで,開始点と終了点の対 応を明示することも可能である. この手法には,これまでにも,様々な名前が付けられてきた. 例えば,トロイの標石要素,HORSEマークアップ,CLIX,COLT等で ある. これに関しては,DeRose (2004)で解説されている.
参考文献
<lg>
 <l>
  <s>Scorn not the sonnet;</s>
  <s xmlns="http://www.example.org/ns/nonTEI" sID="s02"/>critic, you have frowned, </l>
 <l>Mindless of its just honours; <s xmlns="http://www.example.org/ns/nonTEI" eID="s02"/>
  <s xmlns="http://www.example.org/ns/nonTEI" sID="s03"/>with this key </l>
 <l>Shakespeare unlocked his heart; <s xmlns="http://www.example.org/ns/nonTEI" eID="s03"/>
  <s xmlns="http://www.example.org/ns/nonTEI" sID="s04"/>the melody </l>
 <l>Of this small lute gave ease to Petrarch's wound. <s xmlns="http://www.example.org/ns/nonTEI" eID="s04"/>
 </l>
</lg>
カスタム化の仕方により,この手法は,TEIに準拠したもの,TEI を拡張したもの,TEIに準拠しないものとなる.
  • 変更された要素が,別個のものとしてあり,その名前はTEI の名前空間には存在せず(23.3.4 Use of the TEI Namespace),また,変更された要素や属性は,情報を失 うことなく,既存のTEI構造,例えば,標石要素やアンカーに,規 則的に対応可能である場合,この手法はTEIに準拠したものと なる(23.3 Conformance).
  • 変更された要素が,別個のものとしてあり,その名前はTEI の名前空間には存在しないが,既存のTEI要素には,規則的に は情報を失うことなく対応付けることが出来ないような情報を 含んでいる場合,この手法はTEIを拡張したものとなる(23.3 Conformance).
  • 変更された要素や属性が,別個のものとして存在せず,その名 前がTEIの名前空間に存在している場合,この方法はTEIに準拠し ないものとなる(23.3.3 Conformance to the TEI Abstract Model).
先の例では(最後の例を除いて),開始点と終了点の関係は,(テキ スト中にある)素性の範囲を示していることになる. 終了点は直近の開始点と関連し,また,標石要素を使った 場合には,その地点が,先行するそれの終了点であり自身の後にあ るそれの開始点を示しているとされる. 但し,入れ子化しないテキストが,他の入れ子化しない同種のテキ ストとオーバーラップしている様な場合,問題は複雑になる. 例えば,名詞句fast trains and planesを文法の視点 で分析すると,複数の解釈が可能となる. この場合,形容詞fastは,「trains and planes」を修飾していると も,「trains」を修飾している ともとれる.
Graphic representation of two interpretations of the phrase Fast
                        trains and planes.
図5:「Fast trains and planes」の2つの解釈
この句の可能な解釈を記録するには,曖昧さのない開始点と終了点に よる区分表示が必要となる.
参考文献
<phr function="NP">
 <anchor type="delimitersubtype="NPstartxml:id="NPInterpretationB"/>
 <w function="A">Fast</w>
 <anchor type="delimitersubtype="NPstartxml:id="NPInterpretationA"/>
 <w function="N">trains</w>
 <anchor type="delimitersubtype="NPendcorresp="#NPInterpretationB"/>
 <w function="C">and</w>
 <w function="N">planes</w>
 <anchor type="delimitersubtype="NPendcorresp="#NPInterpretationA"/>
</phr>

この例では,1つ目の解釈として,「fast」が名詞句「trains and planes」を修飾していとし ている. 名詞句「trains and planes」は, 要素anchorの属性xml:idに属性値NPInterpretationAを持たせて,その 開始点が示され,要素anchorの属性correspに同じ属性値を持たせて,その終了 点が示されている. 2つ目の解釈では,「fast」は 「trains」と共に名詞句を形成 し,要素anchorの属性xml:idに属性値NPInterpretationBを与えて,その開始 点が示され,要素anchorの属性correspに同じ属性値を与えて,その終了点が 示されている.

このような利点がある一方で,部分境界を示すデリミタを使うこと には,処理を面倒にするという欠点がある. 分析のための要素(例えば,詩における行や,先の例にある句など) は,文書の木構造にあるノードを使い統一的に示されることがない. 従って,これらはソフトウェアにより,その都度,再構築される必 要がある. これは,大変に難しいことで,間違いを起こしやすい.

符号化する人にとって一番大切なことは,当該手法がきちんと,論 理構造を成す要素の開始点と終了点との関係を見いだせることであ る. この手法では,規格に則って作られたソフトウェアであっても,あ らゆる符号化データ上で,同じ検証処理を実行することは不可能で ある. スキーマ言語で規定された統語情報を使っても,空要素によって区 切られた範囲の内容モデルを確定することはできない. 79

20.3 仮想要素を使った分割・統合

3つ目の手法は,ひとつの論理上の(入れ子化しない)要素を, 当該文書構造上,複数の要素に分割し,但し,それらを仮想上再構 築できるようにしておくものである. 例えば,直接引用となる節が,形式段落の中程から始まり,複数の 段落に渡り続いている場合,この節を一連の要素saidを,そ れぞれの要素pの中で使うことで示すことができる. 結果として得られたデータは,妥当なXML文書となっている. 但し,要素saidに記録されているテキストは,直接引 用を完全に(再)構成するための場所を示しているにすぎない. この様なことから,これらの要素は,時に,「部分的要素(partial element)」と呼ばれることがある.

例えば,ピンスキーの詩を例に考えると,直接引用の2つ目の節は, 行境界をまたいでいて,「She said」は,語り手の発話で途切れてしまっているが,2つの要素 saidを使 うことで,韻文行の構造は,再構築することができる.
参考文献
<lg>
 <l>Catholic woman of twenty-seven with five children</l>
 <l>And a first-rate body—pointed her finger</l>
 <l>at the back of one certain man and asked me,</l>
 <l>
  <said n="quotation1">Is that guy a psychiatrist?</said> and by god he was!
 <said n="quotation2">Yes,</said>
 </l>
 <l>She said, <said n="quotation2">He <emph>looks</emph> like a
     psychiatrist.</said>
 </l>
 <l>Grown quiet, I looked at his pink back, and thought.</l>
</lg>
同様にして,ワーズワースの例にある文も,以下のように記録する ことができる.
参考文献
<l>
 <s n="sentence1">Scorn not the sonnet;</s>
 <s n="sentence2">critic, you have frowned,</s>
</l>
<l>
 <s n="sentence2">Mindless of its just honours;</s>
 <s n="sentence3">with this key</s>
</l>
<l>
 <s n="sentence3">Shakespeare unlocked his heart;</s>
 <s n="sentence4">the melody</s>
</l>
<l>
 <s n="sentence4">Of this small lute gave ease to Petrarch's wound.</s>
</l>

この手法には,2つの問題がある. ひとつは,この手法で記録されたデータには,テキスト中にある素 性よりも多い数の,素性を示す要素が存在していることになる. 例えば,「Scorn not the sonnet」の例に は,言語学上,4つの文が存在していることになるが, 要素sを 使い7つの範囲を記録することができる.

2つ目の問題は,意味的に誤解を起こしやすいことである. 例えば,「文」を示す要素を使って記録していたとしても,この例 では,要素s で記録されているテキスト素性が,言語学上の文を成しているとこ ろは,殆どない. 具体的には,「with this key」 は句であり,文ではない. また,「Of this small lute gave ease to Petrarch's woundは,統語範疇のひとつに対応する文字 列ではない.

以上のことから,これらの問題は,分割されている素性を自動的に 分析することを難しくしているといえる. 例えば,ワーズワースの詩にある文の数を調べようとしたとき,要 素sを完全な る修辞上の文を示すものとして数えてしまうと,本来の数よりも多 くなってしまう. また,その統語情報を分析しようとしたとしても,要素sを言語学上の 文を示すものと想定することができない.

このような分割の手法は,多くの場合,仮想的に分割単位を統合す る手法と共に用いられることになる. 仮想上の統合により,テキストにある部分をまとめて,あたらしい 階層構造を作ることができる. ここで,もう一度「Scorn not the sonnet」 を例にとってみよう. ここでは,文中にある分割された部分間の関係は, 16.7 総合で解説 されている,属性nextと属性prevを使い,明示されている.
参考文献
<l>
 <s>Scorn not the sonnet;</s>
 <s next="#s2bxml:id="s2a">critic, you have frowned,</s>
</l>
<l>
 <s prev="#s2axml:id="s2b">Mindless of its just honours;</s>
 <s next="#s3bxml:id="s3a">with this key</s>
</l>
<l>
 <s prev="#s3axml:id="s3b">Shakespeare unlocked his heart;</s>
 <s next="#s4bxml:id="s4a">the melody</s>
</l>
<l>
 <s prev="#s4axml:id="s4b">Of this small lute gave ease to Petrarch's wound.</s>
</l>
このような部分的要素を仮想的に統合する手法は,「連鎖 (chaining)」とも呼ばれることがある.
要素abや, 要素l, 要素lg, 要素divで を使い,また,クラスatt.segLikeのメンバーである 要素を使うよりも,より簡単に,分割領域を,仮想的に統合する仕組みがある. 16.3 区画,分割,アンカーで解説した,属性 partに,属性値I(始めの部分が完全ではない),M(中部分が完全ではない),F(終わりの部分が完全ではない)を付 与する方法である. この手法を使い,先の例を記録してみると,以下のようになる.
参考文献
<l>
 <s>Scorn not the sonnet;</s>
 <s part="I">critic, you have frowned,</s>
</l>
<l>
 <s part="F">Mindless of its just honours;</s>
 <s part="I">with this key</s>
</l>
<l>
 <s part="F">Shakespeare unlocked his heart;</s>
 <s part="I">the melody</s>
</l>
<l>
 <s part="F">Of this small lute gave ease to Petrarch's wound.</s>
</l>
この手法は,TEIに準拠している. また,簡単に使うことができるものである. この手法の欠点は,オーバーラップを含む場合に,上手く対応でき ないことである. また,同じ要素が入れ子化する場合には,部分的要素のどれがはじ めの部分,中部分,終わりの部分なのかを特定することは難しくな ることから,これにも上手く対応できない. この問題は,実際にピンスキーの例を,文法に注目したと同時に, 韻律にも注目して符号化してしてみると,明らかになる.
参考文献
<lg>
 <l>
  <s part="I">Catholic woman of twenty-seven with five children</s>
 </l>
 <l>
  <s part="M">And a first-rate body—pointed her finger</s>
 </l>
 <l>
  <s part="M">at the back of one certain man and asked me,</s>
 </l>
 <l>
  <s part="F">"<s>Is that guy a psychiatrist?</s>" and by god he was!</s>
  <s part="I">"<s part="I">Yes,</s>"</s>
 </l>
 <l>
  <s part="F">She said, "<s part="F">He <emph>looks</emph> like a psychiatrist.</s>"</s>
 </l>
 <l>
  <s>Grown quiet, I looked at his pink back, and thought.</s>
 </l>
</lg>
分割された部分的要素を統合する3つ目の手法では,要素joinのよう に,そのまま記録されていることはないマークアップが使われている. この手法では,要素joinは,文書中のどこででも,仮想要素の 内容を明示的に示すために使われることになる.
参考文献
<l>
 <w xml:id="w01">Scorn</w>
 <w xml:id="w02">not</w>
 <w xml:id="w03">the</w>
 <w xml:id="w04">sonnet</w>; <w xml:id="w05">critic</w>, <w xml:id="w06">you</w>
 <w xml:id="w07">have</w>
 <w xml:id="w08">frowned</w>,
</l>
<l>
 <w xml:id="w09">Mindless</w>
 <w xml:id="w10">of</w>
 <w xml:id="w11">its</w>
 <w xml:id="w12">just</w>
 <w xml:id="w13">honours</w>; <w xml:id="w14">with</w>
 <w xml:id="w15">this</w>
 <w xml:id="w16">key</w>
</l>
<l>
 <w xml:id="w17">Shakespeare</w>
 <w xml:id="w18">unlocked</w>
 <w xml:id="w19">his</w>
 <w xml:id="w20">heart</w>; <w xml:id="w21">the</w>
 <w xml:id="w22">melody</w>
</l>
<l>
 <w xml:id="w23">Of</w>
 <w xml:id="w24">this</w>
 <w xml:id="w25">small</w>
 <w xml:id="w26">lute</w>
 <w xml:id="w27">gave</w>
 <w xml:id="w28">ease</w>
 <w xml:id="w29">to</w>
 <w xml:id="w30">Petrarch's</w>
 <w xml:id="w31">wound</w>.
</l>
<!-- Elsewhere in the document -->
<p>
 <join result="sscope="roottargets="#w01 #w02 #w03 #w04"/>
 <join
   result="s"
   scope="root"
   targets="#w05 #w06 #w07 #w08 #w09 #w10 #w11 #w12 #w13"/>

 <join result="sscope="root"
   targets="#w14 #w15 #w16 #w17 #w18 #w19 #w20"/>

 <join
   result="s"
   scope="root"
   targets="#w21 #w22 #w23 #w24 #w25 #w26 #w27 #w28 #w29 #w30 #w31"/>

</p>

この,要素joinを使う手法は,TEIに準拠している.

分割して仮想上統合する手法の利点は,テキスト中にあるあらゆる 階層を明示的に扱うことができることである. 文書中で使われているひとつの階層構造と,分割され,統合される ことになる選択的な階層構造の両方を扱えることになる. この手法の欠点は,(他の手法と同様に)ひとつの階層構造に,他の 階層構造も合わせる必要があることである. そのように他の階層構造を統合する処理には,特別なものが必要と なり,要素joinを使う場合を除いて,意味的には誤解 を生みやすくなる.

20.4 スタンドオフスタイル

殆どのマークアップでは,テキスト中に要素を埋め込むことをして いる. これとは別に,テキストと,それを解説しているマークアップ部分 とを,分けておくという手法がある. このような手法は,スタンドオフスタイルとして知られている(16.9 スタンドオフスタイル). この手法では,当該テキスト内容には存在しておらず,他の「層 (layer)」とリンク付けられているXML要素から各ノードが構成され る新しい文書の木構造を作ることになる. 他のXML文書中にあるノード,または,テキストデータから構成され る木構造となる. またこの手法は,複数の基準に従い,さらに細分化することができ る. 1つ目は,リンク元(link base)である. すなわち,アノテーションが記録されている内容である. リンク先には,明示的な参照を可能にするためのマークアップが存 在していることがある. 例えば,以下の例では,分けて記録されている要素wでは,属性 xml:idが付与され,その属性値が,リ ンク元から要素xi:includeのリンク先と して使われている. 80:
参考文献
<l>
 <w xml:id="w001">Scorn</w>
 <w xml:id="w002">not</w>
 <w xml:id="w003">the</w>
 <w xml:id="w004">sonnet</w>;
<w xml:id="w005">critic</w>,
<w xml:id="w006">you</w>
 <w xml:id="w007">have</w>
 <w xml:id="w008">frowned</w>,
</l>
<l>
 <w xml:id="w009">Mindless</w>
 <w xml:id="w010">of</w>
 <w xml:id="w011">its</w>
 <w xml:id="w012">just</w>
 <w xml:id="w013">honours</w>;
<w xml:id="w014">with</w>
 <w xml:id="w015">this</w>
 <w xml:id="w016">key</w>
</l>
<l>
 <w xml:id="w017">Shakespeare</w>
 <w xml:id="w018">unlocked</w>
 <w xml:id="w019">his</w>
 <w xml:id="w020">heart</w>;
<w xml:id="w021">the</w>
 <w xml:id="w022">melody</w>
</l>
<l>
 <w xml:id="w023">Of</w>
 <w xml:id="w024">this</w>
 <w xml:id="w025">small</w>
 <w xml:id="w026">lute</w>
 <w xml:id="w027">gave</w>
 <w xml:id="w028">ease</w>
 <w xml:id="w029">to</w>
 <w xml:id="w030">Petrarch's</w>
 <w xml:id="w031">wound</w>.
</l>
<!-- elsewhere in the document or in another document indicated by the value of @href -->
<p>
 <s>
  <include xmlns="http://www.example.org/ns/nonTEI" href="."
    xpointer="range(element(w001),element(w004))"/>

 </s>
 <s>
  <include xmlns="http://www.example.org/ns/nonTEI" href="."
    xpointer="range(element(w005),element(w013))"/>

 </s>
 <s>
  <include xmlns="http://www.example.org/ns/nonTEI" href="."
    xpointer="range(element(w014),element(w020))"/>

 </s>
 <s>
  <include xmlns="http://www.example.org/ns/nonTEI" href="."
    xpointer="range(element(w021),element(w031))"/>

 </s>
</p>

この方法は,先に紹介した要素joinととてもよく似ている. この方法の利点は,統合向けの要素sにある属性を特定することができること である. また,適切に処理してくれる既存のソフトウェアがあることも利点 である. スタンドオフスタイルの記述は,アノテーションが付加されるテキ スト部分が,単純なテキストデータのみ,つまり,XMLデータを含 まない場合でも使うことができる. この場合,マークアップされるテキストの範囲は,文字の位置によ り指定される(16.2.4 TEI XPointer.特に16.2.4.5 string-range()を参照のこと). 2つ目は,リンク先となるファイルの数である. 1つの(特別な)アノテーションを,他の全てのアノテーションの リンク先として使うことがある. また,記述の層をいくつも自由に結びつけることができる.

これまで,スタンドオフスタイルには,アノテーションを埋め込む ケースでは,いくつかの利点があるとしてきた. その中でも特に,元資料が書き込み不可の状態であっても,そのテ キストにアノテーションを付加することができるとは,利点である. また,アノテーションを含むファイルは,元テキスト上に記録す ることなく,自在に存在することができる. さらに,文学研究においては,不連続なテキスト部分に,ひとつの アノテーションを付加できるという利点や,独立した平行テキスト のそれぞれにアノテーションを付加できるという利点,そして,異 なるアノテーションのファイルに,複数の異なる種類の情報をまと めることができるという利点もある. 最後に,この手法はエレガントであるといわれてきたことを紹介し ておく.

但し,この手法にも,いくつかの欠点はある. 一つ目は,スタンドオフスタイルでは,情報を記録する複数の層が 存在することになるが,これは,それぞれ独立して解釈される必要 がある. 但し,各レイヤの情報は,独立してはいるものの,互いは依存関係 にある. また,複数の階層構造で示される情報を記録することはできるもの の,その情報には,一般的な手法では,たどり着くことは難しい.

TEI名前空間にはない要素を使っている限り,スタンドオフスタイ ルによる記録は,TEIの拡張の範囲となる.

20.5 XML以外の手法

文章構造がオーバーラップする問題を解決したり,それに悩まない ような符号化の手法が,XML以外のものでは,多く存在している. このような手法には,全てを網羅するものではないが,以下のよう なものが提案されている.

これらの手法は,一般的ではないXML処理ソフトやデータモデルに 基づいている. または,XMLデータではないものもある. TEIはXMLに基づいたものであるから,これらの手法の詳細は,この ガイドラインでは扱わない. TEIでこれらの手法を使う際には,拡張が必要となる. 多くの場合,その結果作られたデータは,TEIに準拠しないものと なる.

Contents « 19 グラフ,ネットワーク,木 » 21 確信度・責任

注釈
78.
但し,これまでにも紹介してきたとおり,異なるアノテーション を直接関連づけることは可能である. アノテーションとしてあるテキストが特定可能である場合,その テキストは,異なるアノテーションを結びつける機能としても働 くことができる.これについてはWitt (2002)を参照 のこと.
79.
スキーマ言語(例えば,DTD,W3C Schema,RELAX NGなど)で定め られた構文規則は,マークアップ言語(例えば,XHTML,TEI)を定 義するために使われることになる(訳注:正しくは,マークアッ プ言語のアプリケーション). このような規則に基づくスキーマ言語は,空要素間にある一連の 要素を,妥当なものと判断したり,許可されていないものと判断 したりする.
80.
ここでは,この例をそのまま処理にかけられないよう,嘘の名前 空間をXIncludeで使っている.


Copyright TEIコンソーシアム 2007 Licensed under the GPL. Copying and redistribution is permitted and encouraged.
Version 1.0.