データ管理マニュアル

このマニュアルでは、言語データを統合・共有するため、どのようにデータを管理していくのかについて解説していきます。

1. テンプレートデータのダウンロード・作成

Web言語地図にデータをアップロードするためには、テンプレートに沿ったデータを作成する必要があります。テンプレートに沿ったデータを作成するには、以下の方法があります。

(1) Web言語地図管理画面に掲載されている「テンプレートデータのダウンロード」を選択し、ファイルをダウンロードする。

(2) 自身のデータをテンプレートデータと同じ形にする。テンプレートに入力されている項目のリストは2.1.テンプレートデータリスト、詳細なデータの作成方法は2.2話者情報データ・言語情報データをご覧ください。

なお、テンプレートデータには、以下の2タイプがあります。

どちらも話者情報データ・言語情報データによりデータ管理を行う点では変わりません。管理しやすいタイプをダウンロードし、データを構築してください。

以下では、(2)自身のデータをテンプレートデータと同じ形にするための、データの統合・共有方法を説明していきます。データがすでに用意できている場合は、個人データの管理に進んでください。

2. データの統合・共有

2.1. テンプレートデータリスト

自身のデータをテンプレートと同じ形にする場合は、以下のリストを参考にしてください。

[サンプルデータ]

● 話者情報データ・言語情報データを分けて管理する場合

【話者情報データ】

  • 1列目:ID
  • 2列目:名前
  • 3列目:性
  • 4列目:生年(西暦)
  • 5列目:生年(年号)
  • 6列目:調査年
  • 7列目:調査者
  • 8列目:調査時年齢
  • 9列目:緯度
  • 10列目:経度

※11列目以降は任意の話者情報データを入力する

【言語情報データ】

  • 1列目:ID
  • 2列目:名前

※3列目以降は任意の話者情報データを入力する

● 話者情報データ・言語情報データを一括で管理する場合

  • 1列目:ID
  • 2列目:名前
  • 3列目:性
  • 4列目:生年(西暦)
  • 5列目:生年(年号)
  • 6列目:調査年
  • 7列目:調査者
  • 8列目:調査時年齢
  • 9列目:緯度
  • 10列目:経度

※11列目以降は任意の話者情報データ、もしくは言語情報データを入力する

なお、話者情報データ・言語情報データは任意のデータを追加できますが、上記のテンプレートで指定した列名(項目名)と配列を守らないデータは、エラーとなり、データをアップロードできません。アップロード時にエラーの警告を受けた場合は、、列名と順番を確認してください。

また、テンプレートデータの項目のうち、すべてを入力しなければいけないわけではありません。データの形式が合っていればアップロードは行うことができ、未入力部分は空白として表示されます。そのため、テンプレートデータのうち不必要な項目がある場合は、列名はそのままにして、データを入力しないようにしてください。

以下では、テンプレートデータを自分で作成する方のために、話者情報データ・言語情報データの作成方法について説明します。

2.2. 話者情報データ・言語情報データ

以下では、話者情報データ・言語情報データというWeb言語地図のテンプレートデータの性質について説明します。なお、ここでは、最初に話者情報データと言語情報データを別々に管理するデータを例示します。一括で管理する場合は、以下の作業をひとつのシートで行う点のみが異なります。

(1) 話者情報データ:話者情報データは、当該話者の生育年・性別・出身地・緯度経度情報など、主にフェイス項目を管理するためのデータです(表1)。

表1:データ形式例(話者情報データ)
ID 名前 生年(西暦) 生年(年号) 調査年 調査者 調査時年齢 緯度 経度
1 T-1 1 1912 明治45年 1992 田中ゆかり 80 139.48488 35.92164
2 T-2 1 1915 大正4年 1992 田中ゆかり 77 139.32042 35.86208
3 H-1 1 1946 昭和21年 2010 林直樹 64 139.79831 35.75768
4 H-2 1 1924 大正13年 2010 林直樹 86 139.88835 35.69277

これは、話者がどのような属性を持つのかを管理するためのデータです。この中には、当該話者情報を地図上にプロットするための地点情報が、緯度経度として入力されている。調査地点データを住所で管理している場合は、東京大学空間情報科学研究センターが提供する「CSVアドレスマッチングサービス」を使用することで、緯度経度に変換することが可能できます。

(2) 言語情報データ:言語情報データは、当該話者にどのような言語的特徴が現れたのかを管理するためのデータである。このデータは、語彙・文法・音声などの特徴を問わず入力することができます。アイテムデータの場合は、対象とする特徴が出現したか否かを、0=非出現・1=出現、というような0/1形式で入力してください。数値データの場合は、対象とする特徴が何度数出現したかを連続した数値で入力してください。これらを入力した試行データの形式例が表2です。

表2:データ形式例(言語情報データ)
ID 名前 厚い 終止0 厚い 終止2 厚い 連体0 厚い 連体2 3拍形容詞1類 終止2 3拍形容詞1類 連体2
1 T-1 1 0 1 0 0 0
2 T-2 0 1 1 0 1 0
3 H-1 0 1 1 0 1 1
4 H-2 1 0 1 0 2 2

  :アイテムデータ   :数値データ

表2では、試行データの左から3列目以降にアクセントデータが入力されています。試行データ3列目は「厚い」終止形が0型(LHH)で発話されたか否か、4列目は2型(LHL)で発話されたか否かを表しています。表中グレーの網掛けで表示した部分は数値データで、3拍形容詞Ⅰ類・終止形、ならびに連体形において2型(LHL)が何度数出現したのかを表しています。このようにデータを入力することにより、3.1で示した2種のデータが描画されることになります。

(3) 話者情報データ・言語情報データをつなぐキー:表1・表2に示されているとおり、話者情報データと言語情報データは「ID」と「名前」が合致しています。そのため、この項目が2つのデータをつなぐキーとなっています。話者情報データと言語情報データのキーが一致しない場合はデータが正確に構築されず、地図上にプロットすることもできないので注意が必要です。

※話者情報データ・言語情報データを一括でデータを管理する場合は、キーは必要ありません。

(4) 言語情報データ入力の際の注意点:言語情報データに音声記号を入力する場合は、Web言語地図のXXを参照して、対応する番号をデータに入力してください。正しく入力されているかどうかは、データ管理画面で確認することができます。

2.3. ファイル形式の統合

以上のようにデータを作成した場合、Web言語地図にアップロードするために必ずCSVファイルにしてください。Excelなどのソフトでデータを作成した場合は、CSVに変換して保存を行うことでアップロード可能な形式となります。

「名前を付けて保存」→「ファイルの種類」でCSVを変換して保存

図5:「名前を付けて保存」→「ファイルの種類」でCSVを変換して保存

以上のようにテンプレートデータと同じ形式でデータが作成できたら、3.個人データの管理に進んでください。

3. 個人データの管理

(1) 管理画面へのログイン:個人のデータ管理にログインしてください。ログインすると、以下のような画面が表示されます。

図6:Web言語地図データ管理画面

図6:Web言語地図データ管理画面

(2) データの追加:管理画面左中央の「csvインポート」を選択し、データをアップロード・インポートしてください(以下、本マニュアルではデータをWeb上に追加することをアップロードとします)。データ形式は、2.2.言語データの統合・共有で解説した形で作成したものとしてください。

(3) 個人データの確認:(2)によって追加したデータがどのようなものか確認する場合は、管理画面の「データの確認」を選択してください。ここでは、Web言語地図を閲覧する利用者に向けてのデータの説明・メタ情報を入力することができます。入力したデータの説明やメタ情報は、利用規約ページのデータ確認画面でみることができます。

(4) アイテムデータの管理:地図上に配置するアイコンのタイプならびに色を調節したい場合は、管理画面左上の「個別」タブを選択してください。現在選択できるアイコンは8種類、選択できる色は12種類ですので、最大で96パタンまで対応することが可能となっています。

(5) 数値データの管理:数値データの円の大きさや出現度数の段階を設定したい場合は、管理画面左上の「出現度数」を選択してください。たとえば、任意に設定した階層よって円の大きさを変える、といった変更も可能です。

(6) 変更データの確認:このような手順を踏んで統合されたデータは、Web言語地図の地図画面ですぐに確認することができます。

(7) データの修正・削除:Web言語地図では、一度投稿したデータを修正する場合は、修正データを新規データとして再度アップロードする必要があります。これは、アップロードされたデータの履歴管理のためであるのと同時に、あるデータで描画された言語地図の再現性を確保するための処置となっています。そのため、データを修正する場合は自身が所有するオリジナルデータを修正し、再度(2)データの追加を行う必要があります。

また、一度アップロードされたデータは基本的にそのままWeb上に集積されていきます。これも、データを修正する場合と同様の理由によるものです。

※注:csvデータに出力する際は、改行するとエラーになってしまうため、
エクセル内での改行を削除した状態でcsv出力を行なってください。