21 確信度・責任

Contents

符号化する人は,当該符号化されたテキストに問題があったり,不確 かな部分があったりしたことを記録したり,電子テキストに付加され たマークアップを決めた責任者が誰であるかを記録したい事がある. 本ガイドラインでは,そのようなテキストやマークアップの確かさを 記録する3つの手法を用意している. また,電子テキストにおける責任を示す,3つの手法が用意されている. 要素noteや,要素respStmtは,コアモジュールとヘダーモジュー ルで定義されていることから,これらを使うために特別な作業をする 必要はない. 要素altは,リンクモジュールが 選択されているときにのみ,使うことができる. リンクモジュールについては,16 リンク,分割,統合で解 説されている. 要素certaintyと要素responsは,確 信度モジュールが選択されているときにのみ,使うことができる.

21.1 確信度の程度

確信度には,様々な種類が考えられる. 要素certaintyは,以下にあるような種類の確 信度を記録することが出来る.
  • タグが正確に使われているかどうか(例えば,タグが付与され ている単語が,個人名かどうかが分からない時).
  • 要素の始まりと終わりの正しさが疑われる場合.
  • 属性の値(属性値)が疑われる場合.
  • 符号化する人が記録した内容(例えば,要素abbrで 示されている省略語形の展開形)が疑われる場合.
  • 元テキストから転記された内容が疑われる場合. 例えば,読むことや聞き取りが難しかったりする場合. この種の不確かさは,11.5.1 Damage, Illegibility, and Supplied Textで解説されている要素unclearで記録することも出来る.
以下にあるような不確かさは,要素certaintyでは記録しない.
  • 数値や日付の確かさ.
  • テキスト自体にある曖昧さ. その曖昧さから複数の解釈が生まれる場合.
  • 当該テキストが示す真実性に関して,転記者,編集者,著者が 持つ確信度.
  • 著者が,段落の開始文を,それが最終稿として相応しいか各章 がない場合.
数値や日付の正確さについては,3.5 名前,数値,日付,略語,住所で解説されて いる. 明示できる曖昧さは,18 素性構造にある,素性 構造の値の選択で対応される. 当該テキストの現実性や,内容に対して著者や編集者が抱く確信度 については,要素certaintyでは記録せず,要素noteで記録 することが出来る.

21.1.1 確信度の注釈

マークアップ自体の確信度を記録する一番簡単な方法は,当該要 素や,その場所に注釈を付加することである. 例えば,以下にある例文(作例)では,符号化する人が,「Essex」 が地名なのか人名なのかが,文脈からは分からない状況にある.

Elizabeth went to Essex. She had always liked Essex.

この場合,要素noteを使い,不確かさを記録することが 出来る.
<persName>Elizabeth</persName> went to <placeName>Essex</placeName>. She had always liked <placeName>Essex</placeName>.
<note type="uncertaintyresp="#MSM">It is not
clear here whether <mentioned>Essex</mentioned>
refers to the place or to the nobleman. -MSM</note>
この仕組みを使うことで,テキストにある特定の要素に対する注 釈を付加することが出来る.
<persName>Elizabeth</persName> went to <placeName xml:id="CE-p1a">Essex</placeName>.
She had always liked <placeName xml:id="CE-p1b">Essex</placeName>.
<note type="uncertaintyresp="#MSMtarget="#CE-p1a #CE-p1b">It
is not clear here whether <mentioned>Essex</mentioned>
refers to the place or to the nobleman. If the latter,
it should be tagged as a personal name. -<name xml:id="MSM">Michael</name>
</note>

この手法の利点は,簡単に記録できることにある. この手法の欠点は,確信度の質や程度を構造的には記録すること が出来ないこと,従って,自動処理には向かないことである.

21.1.2 構造的な確信度の表示法

構造的に確信度を記録し,自動処理にも対応するには,要素certaintyを使うことになる.
  • certainty 当該マークアップの確信度を示す.
先の例を,要素certaintyを使い,「Essex」にある不確かさ を,様々な確信度で記録することが出来る. 「Essex」が地名であるかが分からない状況を単純に記録するの であれば,属性targetを使い,当該 要素を参照し,属性locusを使い,何 が不確かであるのか(この場合は,要素の種類)を示すことが出来 る.
Elizabeth went to
<placeName xml:id="CE-pl1">Essex</placeName>.

<!-- ... elsewhere in the document ... -->
<certainty target="#CE-pl1locus="gi">
 <desc>possibly not a placename</desc>
</certainty>
要素certaintyでは,参照の機能を使い,確信 度を付与する場所が示されている. この双方は,一般には,同じ文書中にある. 隣接してある場合もあれば,同じ文書中で離れた場所にあること もある.
より多くの情報を記録したい場合,例えば,「Essex」60%の確信 度で地名であるという,主観的な判断を記録するのであれば,属 性degreeに,その程度を(一般には,0か ら1の間の数値で)記録することが出来る.

<!-- ... --><certainty target="#CE-pl1locus="gidegree="0.6"/>
ある専門家が,「Essex」は60%で地名,40%で人名の可能性があ ると見積もったとしよう. この時,要素certaintyを2つ使い,それぞれの確 信度を記録することが出来る. この2つの要素が,テキスト中の同じ場所を参照し,但し,2つ目 の要素には,排他的な選択関係としてある共通識別子(この場合 はpersName)が,属性assertedValueに記録されている.

<!-- ... --><certainty target="#CE-pl1locus="gidegree="0.6">
 <desc>probably a placename, but possibly not</desc>
</certainty>
<certainty
  target="#CE-pl1"
  locus="gi"
  degree="0.4"
  assertedValue="persName">

 <desc>may refer to the Earl of Essex</desc>
</certainty>
最後に,場合によっては,その確信度に条件を付けたい場合を考 えてみる. 例えば,「Elizabeth went to Essex; she had always liked Essex」という文にある「Essex」は,60%で地名であり,40%で国 王の名前であると推定したとしよう. 但し,例文中にある2つの「Essex」は,互いに独立してあるものではない. 一方が地名で,もう一方が人名という可能性は全く(感じられ)な い. このようなケースでは,属性givenを 使い,(訳注:条件となる)要素certaintyを示すことが出来る.
Elizabeth went to <placeName xml:id="CE-PL1">Essex</placeName>.
She had always liked <placeName xml:id="CE-PL2">Essex</placeName>.

<!-- ... -->
<!-- 60% chance that P1 is a placename, 40% chance a personal name. -->
<certainty
  xml:id="cert-1"
  target="#CE-PL1"
  locus="gi"
  degree="0.6">

 <desc>probably a placename, but possibly not"</desc>
</certainty>
<certainty
  xml:id="cert-2"
  target="#CE-PL1"
  locus="gi"
  assertedValue="persName"
  degree="0.4">

 <desc>may refer to the Earl of Essex"</desc>
</certainty>
<!-- 60% chance that P2 is a placename,
40% chance a personal name.
100% chance that it agrees with P1. -->

<certainty
  target="#CE-PL2"
  locus="gi"
  given="#cert-1"
  degree="1.0">

 <desc>if P1 is a placename, P2 certainly is"</desc>
</certainty>
<certainty
  target="#CE-PL2"
  locus="gi"
  assertedValue="persName"
  degree="1.0"
  given="#cert-2">

 <desc>if p1 refers to the Earl of Essex, so does P2</desc>
</certainty>
属性givenには条件が示されている 時,(訳注:条件が成立すれば)当該要素certaintyは,示されている確信度で, 当該要素の内容が解釈されることになる. すなわち,条件として指定されている要素certaintyが正しければ,当該 要素の内容が成立する.
この様な,条件付き確信度は,100%以下の数値で記録される. 例えば,「Ernest went to old Saybrook」にある,人名と地名 の可能性がある「Saybrook」を,60%の確信度で人名と判断した としよう. これが地名である場合,50%で「Old Saybrook」が地名を示し, 一方,人名である場合には,90%で「Saybrook」が人名であると する. この様な状況を,要素certaintyを使い,以下のように記録す ることが出来る. (訳注:以下の例には2箇所に間違いがある.xml:idにcert2 を持つ要素の属性assertedValeの値は「placeName」が正しい. また,xml:idにcert3を持つ要素の属性givenの値は「#cert2」が 正しい.)
Earnest went to <anchor xml:id="CE-a1"/> old <persName xml:id="CE-p2">Saybrook</persName>.

<certainty
  xml:id="cert1"
  target="#CE-p2"
  locus="gi"
  degree="0.6"/>

<certainty
  target="#CE-p2"
  locus="startLoc"
  given="#cert1"
  degree="0.9"/>

<certainty
  xml:id="cert2"
  target="#CE-p2"
  locus="gi"
  assertedValue="persName"
  degree="0.4"/>

<certainty
  target="#CE-p2"
  locus="startLoc"
  given="#cert2"
  degree="0.5"/>

<certainty
  xml:id="cert3"
  target="#CE-p2"
  locus="startLoc"
  assertedValue="CE-a1"
  given="#cert1"
  degree="0.5"/>
この例では,xml:idにcert3を持つ 要素certaintyにある属性assertedValueが,選択される開始点を示し ている.
数値の掛け合わせて示せば,この例は,以下にあるような,3つ の異なる解釈の可能性を示しているといえる.
Earnest went to old <persName>Saybrook</persName>. (0.6 * 0.9, or 0.54)
Earnest went to old <placeName>Saybrook</placeName>. (0.4 * 0.5, or 0.20)
Earnest went to <placeName>old Saybrook</placeName>. (0.4 * 0.5, or 0.20)
確信度の合計は,1.00を超えることはない. 従って,この例では,「Saybrook」が人名の場合で,その開始 点が,示されている場所とは異なる場合は,10%しか無いことになる. 従って,人名かつ開始点が異なる場合は,6%(0.1 × 0.6)となる.
属性値に確信度を付与したい場合,属性locusに,対象となる属性を記録することに なる. 例えば,50%で,発話者がAであることを示すには,以下のように することが出来る.
<u xml:id="CE-u1who="#A">Have you heard the election results?</u>
<certainty target="#CE-u1locus="att.whodegree="0.5"/>
転記の内容に確信度を付与したい場合には,属性locusに,値transcribedContentを与えることで,そ れを記録することが出来る. 例えば,元資料が可読困難で,転記の内容があやしい場合,以下 のように記録することが出来る.
I have a <emph xml:id="CE-p3">gub</emph>.

<certainty target="#CE-p3locus="transcribedContentdegree="0.5"/>
略語の展開形に確信度を付与する場合には,同じように,属性値 としてsuppliedContentを使う ことで,それを記録することが出来る.
You will want to use
<choice>
 <expan xml:id="CE-e1">Standard
   Generalized Markup Language</expan>
 <expan xml:id="CE-e4">Some Grandiose Methodology for Losers</expan>
 <abbr>SGML</abbr>
</choice>...

<!-- ... -->
<certainty target="#CE-e1locus="suppliedContentdegree="0.9"/>
属性assertedValueには,疑われる対象 の代替値を記録することが出来る. その対象としては,先の例にあるような,開始点または終了点の 共通識別子(訳注:要素名)や,識別子(訳 注:idとなる属性値),属性値,要素内容が可能である. 例えば,以下のようになる.
I have a <emph xml:id="CE-P3">gub</emph>.

<certainty
  target="#CE-P3"
  locus="transcribedContent"
  assertedValue="gun"
  degree="0.8">

 <desc>a gun makes more sense in a holdup</desc>
</certainty>
属性には,下位構造を取ることが出来ない. 従って,属性assertedValueは,比較 的制約のきつい環境下(代替の内容に,子要素が含まれて いない場合)でのみ,代替内容を示すことができる. 転記内容の不確かさを記録する,より堅固な方法は,要素unclear,要素app,要素rdgを使うものである. これらの要素は,12 校本で解説されている. 要素certaintyは,現在進められている各プロジェ クトで必要とされている機能,例えば,確信度の記録の詳細さや 明晰さに出来るだけ対応したものになっている. 但し,将来は,確信度を記録するより充実した仕組みが必要となっ ている(訳注:本章の内容は,P3以降,殆ど変更は無かったが, 同じP5にも関わらず,現在では,改訂により,新たに要素 precisionが追加されている). これらの機能は,要素certaintyを拡張したものであるか,ま たは,18 素性構造にある素性構造の仕組みを使うも のになるかもしれない.

要素certaintyや,確信度を示す他のTEIの機 能では,記録の複雑さの程度は,変えることが出来る. 確信度を簡単に記録したいのであれば,要素noteを使 うことができる. この要素は,確信度を,自由度が高く,内部に文書構造を使わず に記録することも,また,複雑で構造的な,場合によっては,プ ロジェクトに特化した方法で記録することも可能である. 但し,一般に,要素noteには,特別な準備をしなければ,要素 certaintyと同じ記述能力はない. 従って,確信度が,高度に構造化されている情報である場合に は,要素certaintyを使うことが推奨される.

要素certaintyは,確信度を明示し ない場合にも使うことができる. この場合は,属性locusと属性targetのみが付与されることになる. より複雑なケースでは,詳細な情報を,他の属性で記録すること も出来る. 属性には,任意の文字列を属性値として取ることが出来るが,出 来る限り,推奨値を使うべきである. もし,現場で必要とする適切な値が推奨値になければ,符号化す る人は,自らが規定した統制語彙を,TEIヘダーにある要素encodingDescまたは要素tagUsageに記録すべきである.

21.2 責任を示す属性

一般に,転記することやマークアップそのものの責任について は,TEIヘダー中の要素respStmtに記録される. 特に,タイトルステートメント,版ステートメント,改訂解説中に 記録される.

但し,場合によっては,より詳細に,要素毎に情報を記録したいこ とがある. 例えば,符号化する人が,テキストの転記に責任を持つ人と,固有 名詞にあたる単語や語句の抽出に責任を持つ人を,分けておきたい としよう. この様な細分化された責任の記録には,要素responsを使うことが出来る.
  • respons ある要素の決定に責任のある個人を特定する.
この要素は,当該個人に,複数の役割を記録することが出来る. この要素では,属性targetと属性locusを, 21.1 確信度の程度 で解説した,要素certaintyで使われたときと同じように使うこと ができる. 例えば,属性targetは,特定の要素を 参照し,属性locusには,責任が記録さ れる要素の特性が記録されることになる. 属性locusの値として提案されている値 は,組み合わせて使うことができる. 例えば,(訳注:属性respの値としてある)RCが,元資料にある読めない単語を転記した人を示 し,PMWRが,固有名詞として単語を抽出した人を示しているとした とき,例えば,以下のように組み合わせて使うことができる.
Earnest went to old <persName xml:id="CE-p5">Saybrook</persName>.

<!-- ... -->
<respons target="#CE-p5locus="transcribedContentresp="#RC"/>
<respons target="#CE-p5locus="gi locationresp="#PMWR"/>
<list type="encoders">
 <item xml:id="PMWR"/>
 <item xml:id="RC"/>
</list>

要素によっては,属性respまたはagentを取ることが出来る. これにより,要素毎に異なる意味を記録することが出来る. 要素responsは,責任表のための,一般的なよ そとして使われるべきであり,特定の意味を記録する要素とは,分 けておくべきである.

21.3 確信度モジュール

本章で紹介したモジュールでは,以下にある構成要素を使うことができる.
確信度モジュール:
これら構成要素の選択や組み合わせについては,1.2 TEIスキーマの定義にある.

Contents « 20 非階層構造 » 22 ドキュメンテーション向け要素



Copyright TEIコンソーシアム 2007 Licensed under the GPL. Copying and redistribution is permitted and encouraged.
Version 1.0.