人文学テキストデータ構造化の手引き：各章解説付き目次

teikemdrupaladmin が火, 21 4月 2026 - 23:39 に投稿

本章では、なぜ人文学でテキストを「構造化」する必要があるのかを、テキストという媒体の特性そのものから説き起こす導入の章である。テキストは数値データほど厳密な計量性を持たず、画像・音声・映像ほど多くの情報を保持できないが、そこで行なわれる「捨象」は、意味の比較・概念化・再解釈を可能にする強みとであるとも言える。さらに、テキストは単なる文字列ではなく、物理的構造、論理的構造、意味的構造という複数の層とみなすことができると整理している。構造化については、人間が暗黙裡に行っている「これは章だ」「これは注だ」「これは人名だ」といった判断を、共有可能で検証可能な形に外化することとしている。その結果、異なる版・写本・時代のテキスト同士を比較しやすくなり、検索・抽出・他データとの連携も可能になる。本章は、構造化が単なる技術作業ではなく、テキストを知識資源へ変える学術的基盤であることを示している。

T-2 「デジタル翻刻における課題」

本章では、構造以前の問題として、そもそも文字をどのようにデジタルへ移すのかという翻刻上の難題を扱う。写本や古典籍では、同じ字と見なすか別字とみなすか、どの程度まで字形差を保持するかという判断が研究に直結する。本文では、漢字の字体差や変体仮名の扱い、JIS水準への丸め、Unicodeで表現できない文字への対応など、実務上の岐路が整理されている。とくに、外字画像・外字フォント・TEIに準拠した記述・Unicode登録といった選択肢ごとの長所短所を比較し、技術的可能性だけでなく、検索性・持続可能性・他者との共有可能性まで視野に入れて判断すべきだと説明している。単なる誤転記や仕様上の単純化の問題も含め、翻刻は中立的な「写し」ではなく、多数の研究判断を伴う営みであることが強調される。この章は、後続のTEI実践の前提として、文字の扱いそのものが方法論的問題であることを示している。

T-3 「構造化テキストの様々な記述方法」

本章では、構造化テキストを記述する方法を考える際に、まず「データモデル」と「記述形式」を区別すべきだと述べる。すなわち、テキストをどのような対象として捉えるかという概念的枠組みと、それを実際にどう書き表すかとは別問題である。階層構造、グラフ構造、表構造、区間集合など、複数のモデルがありうることを示したうえで、記述形式もまた一通りではなく、研究目的によって最適解が異なるとする。ただし、各研究者が独自に決めてしまえば共有と再利用は困難になるため、一定の共通理解が必要であり、その典型的な例としてTEIガイドラインが位置づけられる。ここでTEIは単なるタグ集ではなく、人文学の多様な資料に対して、どのような構造・単位・意味を記述するかを体系化した規約として説明される。したがって本章は、XMLやTEIの細部に入る前に、記述法の選択が理論的選択であり、共通規約があるからこそ比較・交換・継承が成立するのだという視点を提供する章である。

T-4 「テキストデータ構造化とTEI」

本章では、TEIを単なる「XMLでマークアップするための規格」とみなす理解を超えて、その歴史的成立とコミュニティ的性格を説明する。本文では、TEIが再利用可能な学術データの基盤として形成されてきたこと、またそれが中央集権的に完成された仕様ではなく、実践・教育・議論の積み重ねによって育ってきた枠組みであることが強調される。たとえばEpiDocのような分野的実践や、TEI by Exampleのような教育資源は、単にガイドラインを普及させるだけでなく、実際の研究判断をどう記述するかという理解を具体化してきた。とくにTEI by Exampleについては、抽象的な仕様書を読むのではなく、例題を通じて「なぜそう書くのか」を学ばせる仕組みとして紹介されている。すなわち、TEIを技術仕様としてだけでなく、共同的知識生産の場として捉え直し、教育・研究・標準化が相互に還流する基盤として捉える章である。

T-5 「構造化テキストの作成――基礎演習1――」

本章からは実習編に入り、Oxygen XML Editorの導入、演習用データの取得、TEI古典籍ビューワの利用準備から始めて、XMLの最小限の基礎を手を動かしながら学ばせる構成になっている。開始タグ・終了タグ・空要素、入れ子構造、オーバーラップ禁止、要素と属性、スキーマの必要性といったXMLの基本が説明され、初学者が「なぜその書き方をするのか」を理解できるようにしている。実習の後半では、整形式チェックやインデント整形といった編集上の基本操作に加え、誤記や校正に関わる表現も扱われる。とくに、<sic>、<corr>、<choice>、@resp などを用いて、単一の修正だけでなく複数の解釈案や責任主体の違いまで構造として残せることが示される。この章は、単なるXML入門ではなく、TEIの初歩を通じて「研究判断をどうデータ化するか」という問題意識へ読者を導く最初の実践になっている。

T-6 「構造化テキストの作成――基礎演習2――」

本章では、本文そのものではなく、TEI文書のヘッダ部分に含まれるメタデータを充実させる演習に集中している。学習目標として、<teiHeader> の構造理解と改善、<fileDesc> 配下の <publicationStmt> および <sourceDesc> の記述が明示されており、単なるテキスト入力ではなく、出所・配布条件・版・分量・注記・底本情報をきちんと残すことが求められる。本文では、配布ライセンスを <availability> と <license> で示すこと、また一点物の資料としての書簡のような資料には、<msDesc> を中心に原資料の書誌・物質的情報をできるだけ丁寧に書くべきだとしている。さらに <editionStmt>, <extent>, <notesStmt> なども紹介され、電子テキストが単独で流通・再利用される際に必要な情報をTEI内部に埋め込む発想が示される。本章は、研究データの信頼性や再利用可能性が、本文だけでなくヘッダの充実によって支えられることを示す章である。

T-7 「構造化テキストの作成――基礎演習3――」

本章では、人物名や地名といった固有表現の記述と参照の問題が扱われる。単に<placeName> や人名タグを付けるだけでは、異表記・旧字体・別名などをまたいで同一実体として扱うことが難しいため、典拠情報との接続が必要になるという議論が展開される。人名典拠の目的を「この名前が誰を指しているのかを、人間だけでなくコンピュータにも分かる形で示すこと」と捉え、国立国会図書館のNDL Web Authorityのような典拠資源を紹介する。日本語資料に強く、日本語表記の揺れや旧字体情報が充実している点、国内外の他典拠へのリンクを持つ点が、TEIでの活用意義として整理される。TEI側では <idno type="NDL"> などによって識別子やURIを書き込むことで、プロジェクト内部の表記と外部の識別子を結びつける方針が示される。本章は、固有表現マークアップを単なる装飾ではなく、知識ベースや典拠体系へ接続する入口として位置づける章である。

T-8 「構造化テキストの活用手法」

本章では、TEI/XMLで作ったデータをどう活かすかに焦点を当てる。導入部では、TEIが特定ソフトに依存しない持続可能な研究基盤として構想されてきたことを確認したうえで、検索、抽出、変換、可視化、共有へと展開する一連の実践を示す。とくにXPathによる要素検索は重要な位置を占め、XML文書内の構造を理解しながら、地名や注など特定の要素だけを安全に抽出できる利点を説く。また、XPathは単なる検索式ではなく、次段階のXSLTやXQuery、さらには複数ファイル横断の処理へつながる基礎であることも強調される。終盤では、TEI/XML文書が他ファイルを参照する場合には一式で公開すること、<teiHeader> が公開・共有時のメタデータ基盤として機能することも述べられる。したがって本章は、TEIデータを保存用の終着点ではなく、多様な処理と再利用の出発点として理解させる、応用面の中核的な章である。

T-9 「構造化テキストの作成手法――画像リンク編――」

本章では、TEI本文と画像資料を結びつける方法を扱う。中心となるのは <facsimile>, <surface>, <zone> と @facs の組み合わせであり、画像を単なる付録ではなく、本文と相互参照できる構造として扱う考え方が整理される。<surface> はページや丁など画像の基本単位、<zone> はその内部で切り出した意味的領域として説明され、どこを一つの単位とみなすかは自動的に決まるものではなく、研究目的に応じた解釈を反映する判断だとされる。実践面ではOxygenのImage Map Editorを用いて矩形や多角形で領域を描画し、その座標を自動的に @ulx, @uly, @lrx, @lry や @points に書き出す方法が示される。またIIIFマニフェストから <facsimile> 構造を自動生成し、IIIF Curation Viewerを補助的に使う方法も説明される。部分的な自動化も踏まえた上で、粒度や対応関係の判断は人手で行うべきだとする。

T-10 「校訂テキストを含む学術編集版の構造化」

本章では、異本や校異を含む学術編集版をTEIでどう記述するかを論じる。まず、伝本（witness）を teiHeader 側で参照体系として定義し、本文中の校異情報と一貫して結びつけることが重要だとされる。また編集者による校案については、それが誰の判断で、どの資料に基づくのかを明示し、後の再評価に耐える形で残す必要があると説く。本文では、TEIにおける校異記述法として location-referenced、double-end-point-attached、parallel segmentation の三方式が紹介されるほか、<app> をどの粒度で置くべきかが詳しく検討される。文字単位では機械処理に向くが可読性を損ね、語句単位では意味のまとまりを捉えやすいが細かな自動処理には不利になる、といったトレードオフの整理が実践的である。さらに <lem>, <rdg>, <note>, @resp, @cert などを用いて、校案とその責任主体・確実度・根拠を明示する例が示される。本章は、校訂版を「確定本文」としてではなく、判断の履歴と根拠を可視化した研究データとして記述する発想を打ち出している。

T-11 「TEIと辞書――東アジア古辞書を例として――」

本章では、辞書資料をTEIでどのように表現するかを、東アジアの古辞書を具体例にして解説する。TEI辞書モジュールの特徴として、規則的な構造を前提とする <entry> と、それを前提としない <entryFree> を区別することがまず説明される。前者では<form>, <gramGrp>, <sense> などの枠組みの中に情報を整理するが、後者では実際の資料の複雑さをより柔軟に受け止められる。本文に示される例では、見出し字、反切、字義、用例、類義・関連語などが <sense>, <def>, <xr>, <quote> 等で表現され、東アジア古辞書に特有の配列や省略法をどう構造へ写すかが検討される。とくに宋本『玉篇』のように、原本の複雑な記述を再編・整理した辞書では、反切と字義の対応関係をどう明示するかが重要な論点として扱われる。つまり本章は、辞書を単なる語義集ではなく、見出し・読み・意味・引用・相互参照が絡み合う複合的テキストとして捉え、その複雑さに応じて <entry> と <entryFree> を使い分ける視点を提供する。

T-12 「談話資料の構造化」

本章では、会話や口頭言語の資料をTEIでどう構造化するかを論じる。文献資料とは異なり、談話資料では発話の順序、話者交替、沈黙、言いよどみ、聞き取り困難箇所、重複発話など、時間的で相互行為的な現象を扱う必要がある。本章では、発話を <u>、語句を <phr>、句読点相当を <pc> で記述し、必要に応じて共通語訳との対応を @corresp で示す例が紹介される。さらに <timeline> と <when> によって時間軸を定義し、発話の開始・終了や出来事の位置づけを時間情報と結びつける発想も示される。個別現象としては、言いよどみや聞き取り困難箇所を <unclear> で、沈黙を <pause dur="PT5S"/> のようにISO 8601形式の時間長で示す方法が説明される。重要なのは、こうしたタグ付けが単なる転写記号の置換ではなく、会話現象をどのように切り分け、どこまで区別するかという分析的判断を表現し得る点である。談話データを研究可能な構造へ転換するための、実践的な枠組みを示す章である。

T-13 「TEI実践を研究として位置づける」

本章では、TEIによる構造化作業を、論文の下準備のような補助的作業ではなく、それ自体が研究として成立しうる営みとして位置づける。ここで鍵となる概念が「方法論の共有地（Methodological Commons）」であり、TEIを用いた記述は、個人の内部的整理にとどまらず、国際的な方法論の共有地に参加する行為でもあるとされる。固有表現の構造化、内部リストと外部典拠の役割分担、XIncludeによる参照設計など、これまでの章で扱ってきた実践が、研究判断を明示し共有可能にする方法だという理解にまとめられていく。とくに、TEIガイドライン自体が長年の実践と議論の蓄積をもつため、TEIを用いることで、研究者は構造設計の正当化そのものに多大な労力を費やすのではなく、より高次の解釈的・方法論的問題に議論を進められるという指摘が重要である。また成果形態も論文に限定されず、学会発表、データ公開、方法論提示など複数の層で評価されうると論じる。本章は、TEI実践の学術的意義を言語化する章である。

T-14 「オープンな学術情報流通を支えるテキストデータ構造化」

本章では、本チュートリアル全体を、オープンアクセス、再利用、発見可能性、研究支援環境といった学術情報流通の文脈に接続する締めくくりの章である。冒頭では、研究成果の価値が「公表されたかどうか」だけでなく、「どのような形で流通しているか」に左右される時代になったと述べ、テキストデータ構造化をその基盤として位置づける。中盤では、研究者側に求められるのは最初から完全なデータを作ることではなく、どの単位を切り出し、どの判断を採用したかを後から理解できる形で残す姿勢だと整理される。終盤では、研究者・運営側・実装支援の役割分担が論じられ、構造化されたテキストがオープンな学術情報流通を支えるだけでなく、生成AI時代の信頼性ある知識資源にもなると述べる。ただし、AIのために構造化するのではなく、人間の研究判断を明示的に記述した結果としてAI利用可能性が高まる、という立場を一貫してとっている。本章は、TEI実践を個別プロジェクトの技法から、持続的な知識循環と将来の学術基盤へと引き上げる視座を提供している。