17 簡易分析機能

Contents

この章では,テキスト要素の簡易分析や解釈むけのモジュールについ て解説する. ここでいう「分析」とは,符号化する人がテキストの全てまたは一部 に,付加しておきたい人がテキストの意味的,統語的解釈のことで ある. この章で扱われる対象としては,例えば,言語学上の区分(句,形態 素,文法単位など)や,物語構造の分類(例えば,テーマ,調和 (reconfiliation)など)がある. この章で示される手法は,簡単なもので,18 素性構造で解説される手法に 比べて記述力はない.

17.1 言語学的区分では,言語学上の区分,例え ば,文,節,句,語,形態素,文字などに従い,テキスト部分を特 徴付けるモジュールを解説する. ここで示される要素は, 16.3 区画,分割,アンカーで解説される,汎用の要素であるsegの,特別な 場合といえる.

17.2 簡易分析向けグローバル属性では, テキストと,解釈を示す特定要素とを関連づけるための,グローバル 属性を導入する. 「解釈」を示す要素(例えば,spaninterp)に ついては,17.3 部分と解釈で解説する. これにより,一連の名前と値として,分析を記録することができる. 68 この名前と値の組は,複数のテキスト範囲を,単位の指定では直接的 に,または会社の指定では間接にリンク付けられる.

最後の17.4 言語学的アノテーションでは,再び言語学上 の分析について解説し,解釈を記録する機能がどのように言語学 的な分析とテキスト部分を関連づけるかを示す.

17.1 言語学的区分

この章では,言語学的区分に特化した要素を解説する. これらの要素は,テキスト部分を,伝統的な言語学上の区分,例え ば,文,節,句,語,形態素,文字として記録するために使われる.
  • s 文に相当するテキスト単位を示す.
  • cl 文法上の節を示す.
  • phr 文法上の句を示す.
  • w 文法上の語を示す(正書形である必要はない).
    lemma 当該語の,辞書の見出し形を示す.
  • m 文法上の形態素を示す.
    baseForm 形態素の基底形を示す.
  • c 文字を示す.
これらの要素は全て,クラスatt.segLikeのメンバーであり,以 下の属性を取ることができる.
  • att.segLike 任意の部分に使用される要素向けの属性を示す.
    type 当該分割の種類を示す.
    function 当該部分の役割を示す.

これらの要素は,クラスmodel.phraseの下位クラスで あるクラスmodel.segLike のメンバーでもある. 従って,本章で解説するモジュールが定義されていれば,これらの 要素は,文書中にテキストを記録できる全ての場所で使うことができる.

要素sは,テ キストの範囲を,重なりがない一連の区分として記録し,「文単位」 または「文」として参照される.
参考文献
<p>
 <s>Nineteen fifty-four, when I was eighteen years old,
   is held to be a crucial turning point in the history of
   the Afro-American — for the U.S.A. as a whole — the
   year segregation was outlawed by the U.S. Supreme Court.</s>
 <s>It was also a crucial year for me because on June 18,
   1954, I began serving a sentence in state prison for
   possession of marijuana.</s>
</p>
要素sは,要 素segと比 べて,その要素内容や使い方は,制限されている. 要素segの 場合,段落中に出現する全ての範囲を記録することができた. 従って,クラスmodel.inter のメンバー(例えば,要素biblや要素listな ど)を,他の句レベルの要素と同様に含むことができた. しかし,要素sは,句レベルの要素やテキストだけを下 位要素として取ることになる. また,要素s は,要素segとは異なり,自身を入れ子にすること ができない. 69 また,要素segは,汎用的な区分を示すためのもので,そ の機能は属性typeで示される. 一方,ここで解説するクラスのメンバーは,より特定の役割を果た すものである. 例えば,要素s,要素cl,要素phrは,それぞれ,segtype="s-unit"segtype="clause"seg type="phrase"と記述されるものに相当することになる.
要素sは,さ らに,下位区分「節」へと分けることもできる. 例えば,以下の例のように,節は,要素clで記録され る.
参考文献
<p>
 <s>
  <cl>It was about the beginning of September, 1664,
  <cl>that I, among the rest of my neighbours,
       heard in ordinary discourse
   <cl>that the plague was returned again to Holland; </cl>
   </cl>
  </cl>
  <cl>for it had been very violent there, and particularly at
     Amsterdam and Rotterdam, in the year 1663, </cl>
  <cl>whither, <cl>they say,</cl> it was brought,
  <cl>some said</cl> from Italy, others from the Levant, among some goods
  <cl>which were brought home by their Turkey fleet;</cl>
  </cl>
  <cl>others said it was brought from Candia;
     others from Cyprus. </cl>
 </s>
 <s>
  <cl>It mattered not <cl>from whence it came;</cl>
  </cl>
  <cl>but all agreed <cl>it was come into Holland again.</cl>
  </cl>
 </s>
</p>

節は,さらに,要素phrで下位区分化することができる. テキストは,直接「節」または「句」へと下位区分化することがで きる. 順番通りに階層を作る必要はない.

韻文では,韻律構造と文法構造が重なり合う(オーバーラップす る)ことがあり,この場合,特別な配慮が必要となる. これを記述する簡単な方法は,韻文の境界と重なり合う統語上の句 を,属性partを伴い,さらに分割する ことである.
参考文献
<div type="stanza">
 <l>
  <cl part="I">Tweedledum and Tweedledee</cl>
 </l>
 <l>
  <cl part="F">Agreed to have a battle;</cl>
 </l>
 <l>
  <cl part="I">For Tweedledum said <cl part="I">Tweedledee</cl>
  </cl>
 </l>
 <l>
  <cl part="F">
   <cl part="F">Had spoiled his nice new rattle.</cl>
  </cl>
 </l>
</div>
<div type="stanza">
 <l>
  <cl part="I">Just then flew down a monstrous crow,</cl>
 </l>
 <l>
  <cl part="F">As black as a tar barrel;</cl>
 </l>
 <l>
  <cl part="I">Which frightened both the heroes so,</cl>
 </l>
 <l>
  <cl part="F">
   <cl>They quite forgot their quarrel.</cl>
  </cl>
 </l>
</div>
また,これとは他の方法として,リンクモジュール(16 リンク,分割,統合)で 定義されている属性nextprevを使う 方法がある.
<l>
 <cl next="#c5xml:id="c3part="I">For Tweedledum said
 <cl next="#c6xml:id="c4part="I">Tweedledee</cl>
 </cl>
</l>
<l>
 <cl prev="#c3xml:id="c5part="F">
  <cl prev="#c4xml:id="c6part="F">Had spoiled his nice new rattle.</cl>
 </cl>
</l>
また,これらとも別な方法が,20 非階層構造で解説されてい る.

属性typeは,言語学上の区分の種類を 示し,当該区分の付加的な情報を記録することができる. 要素clと要 素phrにあ る属性functionは,当該区分の機能に 関する付加的な情報を記録することができる. これら2つの属性の各値について,規定するものはないが,その内 容については,ヘダー中の要素encodingDescにある要素segmentationに記録されるべきである. 言語学上の区分を符号化する,一般的な方法については,以下にあ る17.4 言語学的アノテーションで解説する.

これらの属性は,伝統的な語彙と共に,例えば,「from whence it came」を従属節とし て,また「by the U.S. Supreme Court」を命題の後置句として特定する,便利な方法であ る.
<cl>It mattered not
<cl type="relativefunction="clause_modifier">from whence it came;</cl>
</cl>
<phr type="NP">the year segregation</phr>
<phr>was outlawed</phr>
<phr type="PPfunction="postmodifier-agent">by the U.S. Supreme Court.</phr>
節や句といった区分は,まとめることも可能である. 例えば,読みやすさを考慮する必要はあるものの,以下のようにす ることができる.
<p>
 <s>
  <cl type="finite-declarativefunction="independent">
   <phr type="NPfunction="subject">Nineteen fifty-four,
   <cl type="finite-relative-declarativefunction="appositive"> when <phr type="NPfunction="subject">I</phr>
     <phr type="VPfunction="predicate">was eighteen years old</phr>
    </cl>
   </phr>,
  <phr type="VPfunction="predicate">
    <phr type="Vfunction="verb-main">is held</phr>
    <phr type="NPfunction="complement">
     <cl type="nonfinitefunction="predicate-nom.">
      <phr type="Vfunction="copula">to be</phr>
      <phr type="NPfunction="predicate-nom.">a crucial turning point
      <phr type="PPfunction="postmodifier">in
       <phr type="NPfunction="prep.obj.">the history
        <phr type="PPfunction="postmodifier">of the Afro-American</phr>
        </phr>
       </phr>
             —
      <phr type="PPfunction="postmodifier-appositive">for
       <phr type="NPfunction="prep.obj.">the U.S.A.
        <phr type="PPfunction="postmodifier">as a whole</phr>
        </phr>
       </phr>
      </phr>
           —
     <phr type="NPfunction="appositive-predicate-nom.">the year
      <cl type="finite-relativefunction="adjectival">
        <phr type="NPfunction="subject">segregation</phr>
        <phr type="VPfunction="predicate">
         <phr type="Vfunction="verb-main">was outlawed</phr>
         <phr type="PPfunction="postmodifier">by the U.S. Supreme Court</phr>
        </phr>
       </cl>
      </phr>
     </cl>
    </phr>
   </phr>.</cl>
 </s>
 <s>
  <cl type="finite-declarativefunction="independent">
   <phr type="NPfunction="subject">It</phr>
   <phr type="VPfunction="predicate">
    <phr type="Vfunction="verb-main">was</phr>
       also
   <phr type="NPfunction="predicate-nom.">a crucial year for me</phr>
   </phr>
   <cl type="declarative-finitefunction="dependent-causative">because
   <phr type="PPfunction="sentence_adverb">on June 18, 1954</phr>,
   <phr type="NPfunction="subject">I</phr>
    <phr type="VPfunction="predicate">
     <phr type="Vfunction="verb-main">began serving</phr>
     <phr type="NPfunction="complement">a sentence in state prison
     <phr type="PPfunction="complement">for possession of marijuana</phr>
     </phr>
    </phr>
   </cl>
  </cl>
 </s>.
</p>

このような書き方では,行や空白をテキスト中で正しく記録するこ とができない. もし,元資料のレイアウトが重要である場合,要素lbや,グローバル属性 rendrendition等を使い,それを明示的に記録する 必要がある.

要素wや, 要素mや, 要素cは, 意味上は,要素segに属性type と,その値としてそれぞれ'w','m', 'c'を伴った記述と同じである. けれども,これらの要素は,要素segと比べて,より特定の働きを持つ. 例えば,要素wは,その下位要素として,要素w,要素m,要素c,そしてテキ ストのみを取ることができる. また,要素m は,その下位要素として,要素cとテキストのみを取ることができる. また,要素c は,その下位要素として,テキストのみを取ることができ,多くの 場合,それは1文字のみである. つまり,これらの要素は,segによって書換が可能ではあるが,その 逆は必ずしも可能ではない.

要素wの内容 には,特に注意が必要で,語レベルと見なすことができるが,実際 には句レベルで定義されているような場合には,制約が必要となる. 例えば,以下では,要素mentionedにより,語として記録されてい るケースである.
<mentioned>grandiloquent</mentioned>
以下にある例のうち,はじめのものは,正統である. ところが,2つ目の例は,正しくない. なぜなら,mentionedは,要素wの内容モデル には含まれていないからである.
<mentioned>
 <w>grandiloquent</w>
</mentioned>
<w><mentioned>grandiloquent</mentioned></w>
ところが,以下にある2つの例は,共に正しい.
<mentioned>
 <phr>grandiloquent speech</phr>
</mentioned>
<phr>
 <mentioned>grandiloquent speech</mentioned>
</phr>
始めの例では,句が引用として記録されている. 2つめの例では,句は発話されたものから構成されたものとして記 録されている.
要素wと要素 mは,索引 や,分析ソフトウェアで使われる,付加的な属性を記録している. 属性lemmaは,項目を特定し,例えば, 辞書においては,動詞や名詞の変化の基底形を示すことになる.
<s xml:lang="la">
 <w lemma="timeo">timeo</w>
 <w lemma="danaii">Danaos</w>
 <w lemma="et">et</w>
 <w lemma="donum">dona</w>
 <w lemma="fero">ferentes</w>
</s>
同様に,属性baseFormは,要素mで使われ,当 該形態素の基底形を示す.
<w type="adjective">
 <m type="prefixbaseForm="con">com</m>
 <m type="root">fort</m>
 <m type="suffix">able</m>
</w>
要素w,要素 m,要素cは,一番詳細 なレベルの,文法上の分析を記録するために使うことができる. 例えば,英語の文「I didn't do it」を例にとってみる.
<w>I</w>
<w>
 <w>did</w>
 <m>n't</m>
</w>
<w>do</w>
<w>it</w>
<c>.</c>

このような区分により,「did」 は,「didn't」の内部にあるこ とが,このままでも分かるように表現されている. このレベルまでテキストを分割することの利点として,各分割単位 が,他の詳細で正式の分析の記述と,簡単に関連づけることができ ることもある. これについては,後の17.4 言語学的アノテーション で詳しく取り上げる.

17.2 簡易分析向けグローバル属性

この章で解説されるモジュールが使われている場合,全ての要素 で,以下の属性が定義されている.
  • att.global.analytic 任意のテキスト部分への分析・解釈に関連するグローバル属性を示す.
    ana 属性ana を伴う要素の解釈を含む要素を示す.
属性anaは,どの要素でも使うことがで きる. この属性値により,分析や解釈を示す複数の要素と関連づけられる. 関連づけられる要素は,以下にある17.3 部分と解釈 で解説する要素か,または要素noteといった,3.8 注釈, Annotation, and Indexingにある,解釈向けの要素か,また は要素fsといった,18 素性構造で解説される要素である.

17.3 部分と解釈

構造化された語彙による分析の解説を,特定のテキスト部分に付加 する,一番簡単な方法は,要素spanや要素interp, ならびにこれらの集合を作る要素spanGrp や要素interpGrpを使うことである.
  • span テキスト部分に解釈的注釈を関連づける.
  • spanGrp 要素spanをまとめる.
  • interp あるテキスト部分とリンクする,特定の解釈的注釈をまとめる.
  • interpGrp 責任者や分類を共にする,関連し合う解釈をまとめる.
これらの要素は,全て,クラスatt.interpLikeのメンバー である. 従って,以下の属性を使うことができる.
  • att.interpLike 形式的分析や解釈を示す要素に付与される属性を示す.
    resp 当該解釈に責任を持つ人物を示す.
    type 当該部分で,どのような面が指摘されているのかを示す.
    inst 当該要素で示されている分析や解釈の実体を示す.
要素span と要素interpにある属性typeは,当該アノテーションが,特定の種類 であること,例えば,テーマや構造についての内容であることを示 す. 当該アノテーション事態は,要素spanや要素interpの 内容として記述される. 要素span の場合,アノテーションの対象となるテキスト部分は,属性fromと属性toの値 が示す範囲として記録される. 属性値toが省略されている場合には, アノテーションの対象となる部分は,属性fromの値で示されている要素そのものとなる. (以下の例にある)要素interpの場合,要素linkまたはこれに準じる 機能を持った機能で示された部分が,対象となる. 属性respは,当該アノテーションの責 任者を示している. それでは,要素spanの例をみてみよう.
参考文献
<p xml:id="MaQp1s2p114">
 <s xml:id="MaQp1s2p114s1">There was certainly a definite point at which the
   thing began.</s>
 <s xml:id="MaQp1s2p114s2">It was not; then it was suddenly inescapable,
   and nothing could have frightened it away.</s>
 <s xml:id="MaQp1s2p114s3">There was a slow integration, during which she,
   and the little animals, and the moving grasses, and the sun-warmed
   trees, and the slopes of shivering silvery mealies, and the great
   dome of blue light overhead, and the stones of earth under her feet,
   became one, shuddering together in a dissolution of dancing
   atoms.</s>
 <s xml:id="MaQp1s2p114s4">She felt the rivers under the ground forcing
   themselves painfully along her veins, swelling them out in an
   unbearable pressure; her flesh was the earth, and suffered growth
   like a ferment; and her eyes stared, fixed like the eye of the
   sun.</s>
 <s xml:id="MaQp1s2p114s5">Not for one second longer (if the terms for time
   apply) could she have borne it; but then, with a sudden movement
   forwards and out, the whole process stopped; and
   <emph rend="italic">that</emph> was <soCalled rend="dquo">the
     moment</soCalled> which it was impossible to remember
   afterwards.</s>
 <span from="#MaQp1s2p114s3to="#MaQp1s2p114s5">the moment</span>
 <s xml:id="MaQp1s2p114s6">For during that space of time (which was
   timeless) she understood quite finally her smallness, the
   unimportance of humanity.</s>
</p>
この例で,要素span は,関連するテキスト部分の近くに置かれている. これとは別に,同じ文書または異なる文書内の,どこか他の場所に 記録されることも可能である. 複数の要素spanまたは要素interpが,同じ属性を共有する場合,例え ば,同じ責任者や分類を持つ時には,要素spanGrpまたは要素interpGrpを,以下のように使う方が便利 である.
<spanGrp>
 <span from="#MaQp1s2p114s3to="#MaQp1s2p114s5">the moment</span>
<!-- other spans identified by DTL here -->
</spanGrp>
テキスト区分は,話の構造部分を示す際にも使うことができる. とりわけ,それらが要素構造と一致しないときには,便利である. 例えば,以下の話で考えてみよう.

Sigmund, the son of Volsung, was a king in Frankish country. Sinfiotli was the eldest of his sons, the second was Helgi, thethird Hamund.Borghild, Sigmund's wife, had a brother named —But Sinfiotli, her stepson, and — both wooed the same womanand Sinfiotli killed him over it. 70 And when he came home, Borghild asked him to go away,but Sigmund offered her weregild, and she was obliged to accept it. At the funeral feast Borghild was serving beer. She took poison, a bigdrinking horn full, and brought it to Sinfiotli. When Sinfiotli lookedinto the horn, he saw that poison was in it, and said to Sigmund ‘Thisdrink is cloudy, old man.’ Sigmund took the horn and drank it off. It is said that Sigmund was hardy and that poison did him no harm,inside or out. And all his sons could tolerate poison on their skin.Borghild brought another horn to Sinfiotli, and asked him to drink, andeverything happened as before. And a third time she brought him a horn,and reproachful words as well, if he didn't drink from it. He spokeagain to Sigmund as before. He said ‘Filter it through your mustache,son!’ Sinfiotli drank it off and at once fell dead.

Sigmund carried him a long way in his arms and came to a long,narrow fjord, and there was a small boat there and a man in it. Heoffered to ferry Sigmund over the fjord. But when Sigmund carried thebody out to the boat, it was fully laden. The man said Sigmund shouldgo around the fjord inland. The man pushed the boat out and thensuddenly vanished.

King Sigmund lived a long time in Denmark in the kingdom ofBorghild, after he married her. Then he went south to Frankish lands,to the kingdom he had there. Then he married Hiordis, the daughter ofKing Eylimi. Their son was Sigurd. King Sigmund fell in a battle withthe sons of Hunding. And then Hiordis married Alf, the son of KingHialprec. Sigurd grew up there as a boy.

Sigmund and all his sons were tall and outstanding in theirstrength, their growth, their intelligence, and their accomplishments.But Sigurd was the most outstanding of all, and everyone who knows aboutthe old days says he was the most outstanding of men and the noblest ofall the warrior kings.

このテキストの構造分析をすると,複数の話の単位に分割され,そ れらは,同じ作品中にある他のテキストと同じパタンを構成してい たとすると,以下のようになる.
参考文献
<p xml:id="P1">
 <s xml:id="S1">Sigmund ... was a king in Frankish country.</s>
 <s xml:id="S2">Sinfiotli was the eldest of his sons.</s>
 <s xml:id="S3">Borghild, Sigmund's wife, had a brother ...</s>
 <s xml:id="S4A">But Sinfiotli ... wooed the same woman</s>
 <s xml:id="S4B">and Sinfiotli killed him over it.</s>
 <s xml:id="S5">And when he came home, ... she was obliged to accept it.</s>
 <s xml:id="S6">At the funeral feast Borghild was serving beer.</s>
 <s xml:id="S7">She took poison ... and brought it to Sinfiotli.</s>
 <s xml:id="S17">Sinfiotli drank it off and at once fell dead.</s>
 <anchor xml:id="EOS17"/>
</p>
<p xml:id="P2">Sigmund carried him a long way in his arms ... </p>
<p xml:id="P3">King Sigmund lived a long time in Denmark ... </p>
<p xml:id="P4">Sigmund and all his sons were tall ... </p>
<spanGrp resp="#TMAtype="narrative-structure">
 <span from="#S1to="#S3">introduction</span>
 <span from="#S4A">conflict</span>
 <span from="#S4B">climax</span>
 <span from="#S5to="#S17">revenge</span>
 <span from="#EOS17">reconciliation</span>
 <span from="#P2to="#P4">aftermath</span>
</spanGrp>

要素anchorは ,テキスト単位'reconciliation'を示すためのもので,これは,テ キスト中に実際には出現しないが,話のパタンの一部を構成するも のとみなされるものである.

同様の分析は,要素spanに代わり,要素interpで も記録することができる. この要素では,解釈の分類とその値を示す属性を取ることができる. 但し,この要素自体では,解釈対象となるテキストを示さない. 同じ解釈の構造を,当該テキスト中の様々な部分と関連づけること も可能である. 要素interpとテキスト部分との関連は,当該テ キスト部分から, 17.2 簡易分析向けグローバル 属性で解説される属性anaを伴う要 素interpが参照されることで成立する. または,当該テキストと解釈記述の両方が,16 リンク,分割,統合で解説され る要素linkで参照されることで 成立する.

まず最初の例では,要素interpを使い,第3,4,5番目の文単位から 構成されるテキスト要素が,段落中に作っている. このようなまとめ方は,16.3 区画,分割,アンカーで解説され る要素seg か,または,16.7 総合で解説される要素joinを使い 実現できる. 結果として生まれた要素は,17.2 簡易分析向けグローバル属 性で解説する属性anaを 伴う要素interpで関連づけることができる. 以下は,要素segを使った例である.
<p xml:id="MarQp1s2p114">
 <s xml:id="MarQp1s2p114s1">There was certainly a definite point ... </s>
 <s xml:id="MarQp1s2p114s2">It was not; then it was suddenly inescapable ... </s>
 <seg xml:id="MarQp1s2p114s3-5ana="#moment">
  <s xml:id="MarQp1s2p114s3">There was a slow integration ... </s>
  <s xml:id="MarQp1s2p114s4">She felt the rivers under the ground ... </s>
  <s xml:id="MarQp1s2p114s5">Not for one second longer ... </s>
 </seg>
 <s xml:id="MarQp1s2p114s6">For during that space of time ... </s>
</p>
<interp xml:id="moment">the moment</interp>
次の例では,要素interpと要素interpGrpを,先と同じような目的で使っている. 当該の解釈は,要素interpGrpに記録される. これは,先の例にある要素spanGrpに相当する部分となる.
<interpGrp resp="#TMAtype="structuralUnit">
 <interp xml:id="INTRO">introduction</interp>
 <interp xml:id="CONFLICT">conflict</interp>
 <interp xml:id="CLIMAX">climax</interp>
 <interp xml:id="REVENGE">revenge</interp>
 <interp xml:id="RECONCIL">reconciliation</interp>
 <interp xml:id="AFTERM">aftermath</interp>
</interpGrp>
要素interpは,属性ana,または要素linkにより,対象と なるテキスト部分とリンク付けられる. 属性anaを(要素spanの中で)使 う場合,当該テキスト部分は,例えば,以下のようになる.
<p xml:id="PP1">
 <seg xml:id="SS1-SS3ana="#INTRO">
  <s xml:id="SS1">Sigmund ... was a king in Frankish country.</s>
  <s xml:id="SS2">Sinfiotli was the eldest of his sons.</s>
  <s xml:id="SS3">Borghild, Sigmund's wife, had a brother ... </s>
 </seg>
 <s xml:id="SS4Aana="#CONFLICT">But Sinfiotli ... wooed the same woman</s>
 <s xml:id="SS4Bana="#I3">and Sinfiotli killed him over it.</s>
 <seg xml:id="SS5-SS17ana="#CLIMAX">
  <s xml:id="SS5">And when he came home, ... she was obliged to accept it.</s>
  <s xml:id="SS6">At the funeral feast Borghild was serving beer.</s>
  <s xml:id="SS17">Sinfiotli drank it off and at once fell dead.</s>
 </seg>
</p>
<anchor xml:id="NIL1ana="#RECONCIL"/>
<p xml:id="PP2">Sigmund carried him a long way in his arms ... </p>
<p xml:id="PP3">King Sigmund lived a long time in Denmark ... </p>
<p xml:id="PP4">Sigmund and all his sons were tall ... </p>
<join xml:id="PP2-PP4targets="#PP2 #PP3 #PP4ana="#AFTERM"/>
ここにあるリンクは,要素linkGrpを使うことで実現している. この要素の内容は,一連の要素linkであり,これ らが各々,解釈を示す要素を参照し,当該テキスト部分との関連を 取っている. この方法では,当該テキスト部分で,属性anaを使う必要はない.
<linkGrp targFunc="interpretation text">
 <link targets="#INTRO #SS1-SS3"/>
 <link targets="#CONFLICT #SS4A"/>
 <link targets="#CLIMAX #SS4B"/>
 <link targets="#REVENGE #SS5-SS17"/>
 <link targets="#RECONCIL #NIL1"/>
 <link targets="#AFTERM #PP2-PP4"/>
</linkGrp>

この例文で,要素spanに代わり,要素interpを 使う,明らかな利点は, 要素interpを,同じ文書中にある別のテキスト に対しても使うことができることである. 要素span では,このようなことはできない. また,もうひとつの利点として,要素interpは,(要素joinで示さ れている)不連続なテキスト部分の解釈を記録するために使うこと ができる. 但し,要素interpは,他の要素(例えば,要素segや要素join)では求 められない,特別なテキスト要素を用意する必要がある. 要素span を使う場合,その必要はない.

17.4 言語学的アノテーション

ここでいう言語学的アノテーションとは,テキストにある言語学的 素性を分析したアノテーションのことである. これには,テキストの構造上の特性(例えば,章や段落に分割する こと)や,内容に関する記述的な情報(例えば,作成状況,ジャン ル,媒体など)は含まれない. TEIに準拠したテキストにおける構造的な特性については,本章の みならず,3 コアモジュールや,4 テキスト構造モジュール や,第3部の各章(訳注:古い版であるP3の残滓で,P5ではこの 部立てはなくなっている)で解説されている要素で記録される. TEIテキストの内容に関する特性については, 2 TEI ヘダーで解説されるTEIヘダーや,15.2 Contextual Information で解説される要素で記録される.

言語学的なアノテーションは,テキスト中の様々なレベルで使うこ とができる. これにより,コード(例えば,品詞コード)を,単語や,それらが連 続的または非連続的にまとまった,または入れ子化している集合に 付与することができる. このようなコードは,分離してあるテキストの部分の間にあるとさ れる関連性にも付与することができる. コード自体は,これ以上細分化ができない分類を表現するものか,また は,テキスト素性を高度にまとめて表現するものである. これらの機能により,当該テキストにあるアノテーションは,言語 学的または談話的な分析や,より一般的な意味分析や,これらの統 合分析と関連づけられる.

このようなアノテーションが記録され,当該テキストに付加される 方法は,全て自動であったり,全くの手作業であったり,その中間 であることもある. 分析を自動化することで容易になることや,その正確性について は,付加されるアノテーションのレベルにより異なってくる. いずれにせよ,その方法は, 2.3.3 編集方法宣言にあ るよう,TEIヘダー内にある要素interpretationに記録されるべきである. あるコーパス中で,複数のアノテーションの方法が採用されている 場合には,属性declsを使い,その事実 を記録すべきである. この詳細は,15.3 Associating ContextualInformation with a Textで解説されている.

分析の種類の例として,IBM(ランカスター)のTreebankプロジェクト(Leech and Garside (1991))から取られた例文をみてみよう.

The victim's friends told police that Kruger droveinto the quarry and never surfaced.

ここでは,ランカスター大学で開発されたクロースシステムで使わ れていた手法で,当該文を分析している. 但し,同じような手法は,他のシステムで採られることも可能であろう. 71 このシステムが出力したデータは,テキストの断片と版番号から構 成されている. また,品詞が各テキスト断片(トークン)に付与されている. クロースシステムでは,各種の非XMLまたはXMLデータを出力できる. 例えば,一番単純なものは,以下のようなものである.
The_AT0 victim_NN1 's_POS friends_NN2 told_VVD police_NN2 that_CJT Kruger_NP0
drove_VVD into_PRP the_AT0 quarry_NN1 and_CJC never_AV0 surfaced_VVD
これをTEI準拠のXMLデータに変換することは,容易である.
<s>
 <w ana="#AT0">The</w>
 <w ana="#NN1">victim</w>
 <w ana="#POS">'s</w>
 <w ana="#NN2">friends</w>
 <w ana="#VVD">told</w>
 <w ana="#NN2">police</w>
 <w ana="#CJT">that</w>
 <w ana="#NP0">Kruger</w>
 <w ana="#VVD">drove</w>
 <w ana="#PRP">into</w>
 <w ana="#AT0">the</w>
 <w ana="#NN1">quarry</w>
 <w ana="#CJC">and</w>
 <w ana="#AV0">never</w>
 <w ana="#VVD">surfaced</w>
</s>
属性値で使われている名前は,人が読む際には大変重要な役割を果 たすが(例えば,AT0は「冠詞」,NN1は「単数名詞」,NN2は「複数名詞」を意味する,など),これ らの名前に必然性はなく,ここでは,これらの属性値の意味をより 正確に規定している要素へのポインターとしての役割を果たしてい る. コードが分割不可能で,構成的な名前ではない場合, 17.3 部分と解釈で解説さ れている要素interpにより,これらの定義が,TEIヘダー 中に記録される.
<interpGrp type="POS">
 <interp xml:id="AT0">Definite article</interp>
 <interp xml:id="AV0">Adverb</interp>
 <interp xml:id="CJC">Conjunction</interp>
 <interp xml:id="CJT">Relative that</interp>
 <interp xml:id="NN1">Noun singular</interp>
 <interp xml:id="NN2">Noun plural</interp>
 <interp xml:id="NP0">Proper noun</interp>
 <interp xml:id="POS">Genitive marker</interp>
 <interp xml:id="PRP">Preposition</interp>
 <interp xml:id="VVD">Verb past tense</interp>
</interpGrp>
付与されるコードが,構成的なものである場合(例えば, NN1NN2とは,共に 「名詞性」をもつ何かで,VVDはそれを 持たない),このような構成性が示す情報は,18 素性構造で解説される要素 fsを使うこ とで,よりはっきりと示すことができる.
これにより,当該テキストは, 17.1 言語学的区分で解説される,言語学上の区分を示す 要素を使い,必要なだけ細分化され,各解釈へのポインタが,属性 anaで示される. 但し,節や句への分析は,先の例で示した語や形態素に,直接付加する ことができる. 例えば,クロースシステムでは,先の例に対して,以下のような構 成の分析を付加することもできる(品詞コードは省略してある).
[N [G The victim's G] friends N] [V told [N police N] [Fn that [N Krueger N] [V[V& drove [P into [N the quarry N]P]V&] and [V+ never surfaced V+]V]Fn]V]
角括弧で示されたラベルを句や節として扱うことで,上記例文に付加 された構造分析の情報を,品詞分析と関連づけ,例えば,以下のよ うにすることができる(記号V&は, 初めに対応するV1に書き換えられ, 記号V+は,V2に書き換えられている).
<s type="sentence">
 <phr ana="#n">
  <phr ana="#g">
   <w ana="#AT">The</w>
   <w ana="#NN1">victim</w>
   <m ana="#GEN">'s</m>
  </phr>
  <w ana="#NN2">friends</w>
 </phr>
 <phr ana="#v">
  <w ana="#VVD">told</w>
  <phr ana="#n">
   <w ana="#NN2">police</w>
  </phr>
  <cl ana="#fn">
   <w ana="#CJT">that</w>
   <phr ana="#n">
    <w ana="#NP1">Krueger</w>
   </phr>
   <phr ana="#v">
    <phr ana="#v1">
     <w ana="#VVD">drove</w>
     <phr ana="#p">
      <w ana="#PRP">into</w>
      <phr ana="#n">
       <w ana="#AT0">the</w>
       <w ana="#NN1">quarry</w>
      </phr>
     </phr>
    </phr>
    <w ana="#CJC">and</w>
    <phr ana="#v2">
     <w ana="#AV0">never</w>
     <w ana="#VVD">surfaced</w>
    </phr>
   </phr>
  </cl>
 </phr>
 <c ana="#pun">.</c>
</s>
この方法では,構成の分析を示すポインターのターゲットを記述す るために,要素interp(または要素fs)の定義が必 要となる.
<interpGrp type="constituentFunction">
 <interp xml:id="v2">coordinate continuation</interp>
 <interp xml:id="v">verbal</interp>
 <interp xml:id="n">nominal</interp>
 <interp xml:id="g">genitive</interp>
 <interp xml:id="fn">finite clause</interp>
 <interp xml:id="p">prepositional</interp>
 <interp xml:id="v1">coordinate start</interp>
</interpGrp>
または,これらの分析を表現するために,要素linkGrpを使い,「スタンドオフ」スタイ ルの記述も可能である. この場合,各言語分析の対象には,属性xml:idが付与されている必要がある.
<s>
 <w xml:id="word-1">The</w>
 <w xml:id="word-2">victim</w>
 <w xml:id="word-3">'s</w>
 <w xml:id="word-4">friends</w>
 <w xml:id="word-5">told</w>
 <w xml:id="word-6">police</w>
 <w xml:id="word-7">that</w>
 <w xml:id="word-8">Kruger</w>
 <w xml:id="word-9">drove</w>
 <w xml:id="word10">into</w>
 <w xml:id="word11">the</w>
 <w xml:id="word12">quarry</w>
 <w xml:id="word13">and</w>
 <w xml:id="word14">never</w>
 <w xml:id="word15">surfaced</w>
</s>
対象と解釈の対応関係は,要素linkGrp中にある要素linkで示されている.
<linkGrp type="POS-annotation">
 <link targets="#word-1 #AT0"/>
 <link targets="#word-2 #NN1"/>
 <link targets="#word-3 #POS"/>
 <link targets="#word-4 #NN2"/>
 <link targets="#word-5 #VVD"/>
 <link targets="#word-6 #NN2"/>
<!--...-->
</linkGrp>

これまでに解説してきた言語分析の対象は,文章構造が整っている ことが必要で,すなわち,ひとつの親要素を持つ必要がある. さらに,これらのテキスト区分は,不連続であったり,構造が重複 (オーバーラップ)したりすることなく,各分析レベルにおいて適切 に分析されている必要がある. もちろん,この様な要求は,全ての分析において必要となるわけで はない. 本ガイドラインでは,不連続な対象の記録や,複数の分析を記録す ることに対応する,様々な手法を用意している. これらの機能にいての案内は,20 非階層構造にある. また,16 リンク,分割,統合も参照すると良い. これらの機能は,多かれ少なかれ,ユニークな識別子を,TEI 準拠のテキスト中にある各要素と対応させることで実現している. 識別子は,要素を参照するターゲットとしての役割を担うことにな る.

この章で解説した機能を使うことで,全く別の種類の分析,例え ば,談話分析も可能となる. 以下では,要素spanを使い,売買の会話を転記についての詳細を記 録している.
参考文献
<u xml:id="u1">Can I have ten oranges and a kilo of bananas please?</u>
<u xml:id="u2">Yes, anything else?</u>
<u xml:id="u3">No thanks.</u>
<u xml:id="u4">That'll be dollar forty.</u>
<u xml:id="u5">Two dollars</u>
<u xml:id="u6">Sixty, eighty, two dollars. Thank you.</u>
<spanGrp type="transactions">
 <span from="#u1">sale request</span>
 <span from="#u2to="#u3">sale compliance</span>
 <span from="#u4">sale</span>
 <span from="#u5">purchase</span>
 <span from="#u6">purchase closure</span>
</spanGrp>
発語されたテキストを転記する際に使われる要素uや他の要素に ついての詳細は,8 Transcriptions of Speech を参照のこと.

17.5 分析モジュール

本章で紹介したモジュールでは,以下の要素を使うことができる.
分析モジュール
これら構成要素の選択や組み合わせについては,1.2 TEIスキーマの定義 にある.

Contents « 16 リンク,分割,統合 » 18 素性構造

注釈
68.
一般には「属性名-属性値」の組として知られているものである. 但し,この用語を,SGMLやXMLにおける属性名と属性値と混同し てはいけない.似た概念であるが,正確には,ここでの定義とは異 なっている(訳注:この注は衒学的なので,神経質にならない方がよい).
69.
この制約,ならびに,要素sで示されたテキスト部分の全体について の制約は,現行のTEIスキーマが要請するものではない. 但し,ガイドラインの今後の新しい版では,これを求めることに なる可能性はある.
70.
ここにある罫線は,写本注で,名前が欠けている空白を示してい る.
71.
クロースシステムにおける,品詞名については,Marshall (1983)を参照のこと.また,当システムの概要については, Garside et al. (1991)を参 照のこと.ここでの例文の作成には,http://www.comp.lancs.ac.uk/ucrel/claws/trial.html にある,クロースシステムのオンライン版を使用した.


Copyright TEIコンソーシアム 2007 Licensed under the GPL. Copying and redistribution is permitted and encouraged.
Version 1.0.