皓星社(こうせいしゃ)図書出版とデータベース

第1回 デジコレの2022年末リニューアルをチェック! ファミリー・ヒストリー編

小林昌樹(図書館情報学研究者)

■連載再開に当たって

メルマガ連載「在野研究者のレファレンス・チップス」は1年間続いた。それらをまとめ、皓星社さんに初めての単著(以下、拙著)『調べる技術』を出してもらったのは、つい先月のことだった。

やれやれ、やっと出版史・読書史の研究に専念できる、と思ったのもつかの間、大変なことになった。当たってしまったのである。品切れに次ぐ品切れ、増刷に次ぐ増刷で、1月26日現在6刷。戦前なら「忽ち六版!!!」と広告が出るところだ。

ベストセラーになりつつあり、インタビューなどで「なぜ売れているのか」と聞かれる。それはこっちも知りたいと思いつつも、スマホが普及し「検索」が日常になったからではないかと考えた。調べるニーズが増大し普遍化しつつあるのに、調べる技術は偏在している。その格差を埋める働きが拙著に期待されているのではと思う。

誰もが情報の大海に出て調べものをする、大航海時代ならぬ「大検索時代」が到来したのである。にもかかわらず、ふつうの人の検索術、調べる技術は大検索時代以前のまま。一方でグーグルなど検索エンジンのほうも、それに迎合して一見、わかりやすく結果を示してくれる。でも、本当にこれでいいの? とみんな薄々気づいていたのではなかったか。

拙著は前職レファレンス司書としての当たり前、「理の当然」を、在野研究者のために書き出したもの。あとはセルフ・レファレンスで、自分で出来るよね、と連載をやめたのだったが、それがこんなにも江湖に受け入れられると、ちょっとやり残した責任を感じるようになった。チップスも40個以上説明していないし、補足説明したほうがいいことも多い……。

ということで断続的になるかもしれませんが、連載を再開します。 今回はデジコレ・リニューアルについてですが、「全米が泣いた」というフレーズの初出探しを拙著『調べる技術』第9講で取り上げたところ、読者さんがツイッターに情報を上げてくれたので追加調査もしてみました。その結果をおまけでつけてあります。

ちなみに今回連載中で「『調べる技術』第○講」と書く時に「第○講」にあたる内容が以前の連載にある場合は、そちらへリンクを張ってあります。

 


 

■2022年は「調べ物ルネッサンス」?!

拙著を出したのは12月9日だが、その2週間後に国立国会図書館(NDL)の大データベース「デジタル・コレクション」(以下、デジコレ)がリニューアルされた【図1-1】。

【図1-1】インターフェイスが一新されたNDLデジコレ

NDLの中の人が拙著のタイミングが悪いとネットで言っていたが、当方、改訂の中身を全く知らず対応などできるわけもなく……。

むしろ拙著『調べる技術』第6講で、数年先にデジコレ内の『官報』がフルテキスト化されれば、戦前新聞データベース(以下、DB)の代用――戦前の官報は社説のない新聞そのもの――になると予言していたのが、それがそのまま早く実現されて、ちょっと驚いている。

評論家の栗原裕一郎さんが埜納ののうタオによるレファレンスのマンガ『夜明けの図書館』(双葉社、2010-2021)や拙著を紹介する中で(『東京新聞』(2023.1.21))、NDLデジコレの個人送信開始(5月)、次ぎデジ実用化(6月)、デジコレ全文検索拡大(12月)も一連の流れだとして「昨年はさながら「調べものルネッサンス」の年であった」とまとめている。

調べものルネサンス期は大検索時代でもあり、今回のリニューアルは調べる人全員にチョー重要だ。どれくらい重要かというと、『調べる技術』第10講をまるまる差し替えないといけないくらい重要。なので連載復活初めに2回ほど、デジコレ・リニューアルの見立てを述べておきたい。

 

■デジコレが良くなる方向性いくつか

ご存知のとおり、NDLのデジタルコレクションは、過去150年間に国立図書館が集め続けた国民の蔵書(4600万点という)を徐々に撮影し、データ化しつつあるものだ。どこまで撮影が進んだかで「量」が、どれだけデータがリッチになったかで「質」が改善されていく。

NDLのプレスリリースによると、今回リニューアルの主な内容は次の4つ。

(1)全文検索可能なデジタル化資料の増加

(2)閲覧画面の改善

(3)画像検索機能の追加

(4)シングルサインオンの実現

(2)と(4)はユーザインタフェイス(UI、使い勝手)の向上で、劇的に良くなった。ちなみに(4)「シングルサインオン」(SSO)とは一度ログインすると、関連する他のシステム――たとえばNDLオンライン――でログインし直さないでいいことである。UIは本当に重要だと実感した。けれど調べものの「質」や「量」とは一応、別スジとしておきたい。

(3)の画像検索はまだ改善の余地が多分にあるようだ。例えば永代橋(1897年)の写真絵葉書をドラッグ&ドロップしたところ、おおむね橋梁の写真が出てきたが探している永代橋は15枚目だった。

以上のことから、ここでは(1)の全文検索機能を検討する。全文検索とは、本文を全部テキストデータに起こして検索できるよう処理したもので、「全文データ」とか「フルテキスト」などと呼ぶこともある。ここでは書く勢いでNDL館内用語だった「フルテキ」も使うがご容赦願いたい。

 

■要するに、デジコレに「次ぎデジ」の拡張版が付いた

まずは「量」の改善。今回の目玉はやはり、(1)全文データが劇的に増えたことだ。以前の5万点から247万点、つまり量において約50倍になった。デジコレには今461万点が入っているようなので、約5割にフルテキストが付いたわけである。

そして同時に「質」も良くなっている。全文データも以前の5万点時代のものは外して、全面的に新データに積み替えたようだ。インターフェイスの改善もあって、247万点の全文データは十分使い物になる。ざっくり言って、試験的に開発されて話題を呼んでいた「次ぎデジ」の拡張版が、旧デジコレの全文検索と置き換わったと言えよう。

 

○日本の学問が全部書き変わる

NDL全体は4600万点の蔵書があるので、単純にいうと5%に全文データがついたわけだ。これから先、残りの資料に広がっていけばすごいことになる。恩師が「次ぎデジ」を評して「(日本の人文社会系)学問が全部書き変わっちゃう」と言っていたことが(→『調べる技術』第10講)、今回デジコレのフルテキ化にそのまま当てはまる。

 

○戦前のことなら永田町へ行かなくても?!

ざっと見たところ、全文データがついた資料は、戦前の図書、雑誌、官報、戦後の図書が多い。戦後の雑誌も本文が引っかかり、便利そうなのだが、著作権未処理なのか館内限定データが多い。逆に言うと、戦前のことならわざわざ永田町まで行かなくとも自宅で済みそうだ。

もちろん、新館地下書庫に眠っている膨大な量の新聞紙がフルテキ化されればものすごいことになる。いままで10年以上、在米日本語文献を誤変換だらけのGoogleブックス(→『調べる技術』第9講)で探っていた我々にとり、今回のリニューアルは朗報だ。

 

■とりあえず、オススメは何

今回のリニューアルを一言でいうと、「戦前の調べものならなんでもできる」ということになる。しかしレストランでメニューがないと、何を頼んでいいのかわからないように、とりあえず何が美味しいのか、といった私のオススメを考えてみると……。

書名、論題名などのメタデータはともかく、今回の全文データは本文そのもののデータなので、キーワードをうまく選定しないと、結果が「ノイズ」(本当は不要な検索結果)だらけになってしまう。

全文データを検索する場合には、とりあえず固有名詞を用いるのがよさそうだ。普通名詞だと大量にヒットしすぎて、結局チェックができなくなってしまう。人物調査など、元から固有名詞でこそ意味がある検索や、あるいは、普通名詞の事柄でも、関連の深い固有名詞に置き換えて検索する、といった技法が考えられる。

 

■ファミリー・ヒストリーに使える

ツイッターを見ると「自分の祖父や曽祖父の名前で検索するといいよ」などという話がみつかる。人物情報でも、まずは先祖調べに使えることがわかる。

 

さすがにみなさん事例を示してはいないので、私の祖父二人を調べてみる。

 

■さっそく祖父を検索してみると

ふつう祖父というものは誰にも2人いる。私の母方の祖父は若死にしたので、大正期から昭和30年ごろまで東京の下町で古道具商をやっていた曽祖父を探してみる。その名前でデジコレを検索するも、同名異人が出るきりでノーヒットだった。

ところが、父方の祖父――浅香勇吉という――はデジコレで何と29件ほどヒットした【図1-2】。母方は人物調査の3類型(『調べる技術』第4講、有名人・限定的有名人・無名人)でいう無名人だったのに対し、父方は限定的有名人だったわけである。

【図1-2】祖父の名が結構ヒット

戦前、満洲でそこそこ出世し、ソ連軍侵攻時には北満の嫩江のんこう(祖母はノンジャンと言っていた)で助役をやっていた。こちらの方はヒットする文献のうち、発行地や主題の場所から、どうやら明治期、東京の高円寺近辺に同姓同名の人物がいたことが(初めて)わかるが、探している人物は満洲帰りなので『帝国実業商工録 昭和8年度版 満鮮版』『満洲紳士録 第2版』といったものを順次見ていけばよい。実は、これら紳士録(人名鑑)に載っていることは今までのプライベートな綿密調査ですでに判っていたので、今回それ以外の資料がデジコレならではの新発見ということになる。

 

■リニューアルならではの新発見資料①→官報

例えば『官報』。1942年4月9日の第4572号p.295に「〔各省の〕広告」に陸軍が「◉恤兵金品」として、1938年7月に受け付けた寄付の金額・寄付者名のリストを掲げている【図1-3】。

【図1-3】1938年の寄付リストに載った祖父

「今回ノ支那事変ニ関シ……」という記事で、その満洲国の1段目、後ろから3行目に次の浅香勇吉が出てくる(何順か分からないが、おそらく寄付金到着順だろう)。

一圓三〇北崎〓伯 二〇圓淺香勇吉 九一圓二五住友金屬工業會社日滿從業員一同 二〇圓長澤英太

※下線は引用者による

 

へぇ、おじいちゃん、「支那事変」で20円も(今だと10万円くらい?)、個人で陸軍へ寄付していたのかぁ、と驚いた。おじいちゃん本人は「ソ連侵攻後、いばってた関東軍がもぬけの殻に」と呆れてたから、当初は帝国陸軍に期待してたんだなぁ……とっても意外。

また戦後の『官報』(1950.8.28)号外103号p.39上段後ろから12行目にも名前が出るので、昭和25年度の測量士補試験に合格していたこともわかる。そういや農地を測る出先の役人をしていたとか聞いたな……。

 

■新発見の資料②→広告記事

今回初めて見つかったものに商工録(企業名鑑)の広告記事がある。従来、新聞DBの一部でしか検索できなかった種類の記事である。その「名刺広告」的な記事に名前が出ていた【図1-4】。

【図1-4】公主嶺営業所時代の祖父(1933年)

親が「おじいちゃんは今でいう転勤族だった」ぐらいのことを言ってたけれど、ホントにそうだったんだ……公主嶺こうしゅれい(長春市――当時は新京――の南)にいたなんて話は初めてだ。

と、すでに集めていた履歴情報に、こういった新発見資料から断片的な情報を足し込んでいくと、きっと本人も忘れていただろう細かいネタを含んだ詳細年譜ができあがるだろう。

 

■使って気づいたこと

○新字⇔旧字

NDL系のDBはおおむね新旧漢字の正規化がなされるので、新字「香」で引いてもちゃんと「香」が出るので有り難い。ただ、次ぎデジで、一部の結果版面に表示されていた出現箇所を示すピン表示(次ぎデジにはあった)がデジコレにはついていないので、官報の掲載名リストのようなものから当該箇所を目視で見つけるには、最大2ページほどの〈根性引き〉をしなければならずややツライ(できなくはない)。できれば「次ぎデジ」で試みられたマーカー表示を付けてほしい。テキストデータ「一圓三〇北崎〓伯」のように、読めなかった字(ここでは「清」の旧字「淸」)は「〓(ゲタ)」が入ったりしている。

○記事⇔広告

全文テキストを検索できるので、従来見過ごされてきがちだった広告記事の部分も拾えるのも良い。

○民間人⇔役人

これはDB側の話でなく、調べる事柄のほうの要因だが、調べた二人のうち、一人がノーヒットで、もう一人は新発見資料がいくつも見つかったのは、小商店主と大会社社員の違いということができよう。二人とも民間人だったが――おかげでか満洲にいたほうは、シベリア抑留を免れた――役人、軍人ならまた別系統の文献、例えば係長クラス以上全員が載る公務員の『職員録』にひっかかるだろう。

○男性⇔女性

ツイッター上で「デジコレでおじいさんを探せ」とあるのは、戦前、女性は活字媒体に記録されづらかったからでもある。ただし紳士録であれば、男性の妻ないし娘として載ることがあるので、ノイズ覚悟になるが、改姓前、後それぞれの名字と名前でand検索するという手もある(紳士録だと検索結果一覧に本文テキスト表示が出ず、各図書の詳細画面に遷移してから「全文検索」をクリックして再検索しないといけないようだ)。

 

■団体の情報を探す:例えばある特価本問屋

団体名で検索するのも固有名検索の一種としてかなり有効だ。いま私は戦前の特価本問屋の歴史を調べているのだが、その最初で最大の「大正堂」についての資料が少なく――どうやら博文館のダミー会社だったらしい――困っている。そこで安直にも「大正堂」で検索してみると、5342件もヒットするので、検索語をいろいろ足してみる。ちなみに、検索結果のヒット数が多いと、一覧表示で本文の表示部が一呼吸遅れて表示される。ちょっと待つこと。

「書籍」やら「図書」やらを足して検索すると、やっぱりノイズだらけなのだが、ヒットしたなかに『官報』があり、商業登記の情報が載っているのではと気づく。「大正堂 図書」のand検索でさらに官報だけに絞り込むと、『官報』(1912.9.2)に(株)大正堂の登記簿情報が出てきた【図1-5】。

【図1-5】(株)大正堂の商業登記『官報』(1912.9.2)

次のような記事がフルテキスト化されている(全文データに適宜改行及び空白を入れ〔〕内を補った)。リニューアル前の5万点時代に比べ、かなり誤変換が少ない。

 

一商本號店 株式會社大正堂

〔一本店〕 東京市神田區裏神保町六番地

一日的 一圖書雜誌及版板紙型原版ノ賣買

二前項事業ニ附帶ノ業務

一設立ノ年月日 大正元年八月二十八日

一資本ノ總額 金十万圓一株ノ金額金五十〔……〕

 

■(ヒント)特定性の弱い固有名詞はキーワードや資料種別で絞り込む

人名などと異なり、「大正堂」のように特定性の弱い固有名詞は工夫しないと求める資料がうまくヒットしないだろう。関連キーワードの品を変えてand検索を試したり、「デジタル化資料(の種別)」から「官報」で絞り込んでみたりとなかなか大変だ。

しかし、以前のフルテキ無しデジコレに比べれば、「タイパ」(タイム・パフォーマンス)は格段に良くなっている。実はこの商業登記の記事は、別の情報から8月まで判っていたので、商業登記の当該月から翌月ページを順次めくって〈根性引き〉をするという技法で見つけていたのだ。その時の十分の一以下の手間になったと言っていいだろう。

 

■本文データの応用:コピペして補正して再利用

本文データも気をつければ、コピペして(コピペ元は詳細画面で「全文検索」をクリックしてキーワードを再検索して表示させる)、版面画像を見ながら次のように補正して論文などに再利用できる。人文リンク集の便利ツールにリンクがある新旧漢字変換テーブルで全体を新字に統一して作り直すと次のようになる(下線部が誤変換だった部分)。

 

商号 株式会社大正堂

本店 東京市神田区裏神保町六番地

的 一図書雑誌及版板紙型原版ノ売買

二前項事業ニ附帯ノ業務

一設立ノ年月日 大正元年八月二十八日

一資本ノ総額 金十万円一株ノ金額金五十〔……〕

 

あとは〈キーワードわらしべ長者法〉(『調べる技術』あとがき)で、たとえば大正堂の取締役筆頭「高岡安太郎」――あの「コミック高岡」の先祖――を使い、足して再検索するとかなりイイ感じ。いつもの通り〈年代順にソートしてチェック〉していくと(年代順に見ること自体で同じ文字列でも意味が生じ、取捨選択できるようになる)、大正9年2月19日に合資会社へ改組されていることが『官報』(1920.6.3)の「広告」欄「商業登記」でわかった。さらにキーワードを「合資会社大正堂」に変えて検索すると、2、3同名の会社解散の商業登記が広告されているが、場所柄から言って、『官報』(1921.9.30)に「●合資會社大正堂(追加)/一線仕員〔総社員〕ノ同意ニ困リ〔因リ〕大正十年七月三十一日解散ス/右大正十年八月三日登記 東京區裁判所蒲田出張所」とあるのがこれらしい。ちなみに「紙型」「原版」を売買するという登記情報の設置目的に特価本問屋らしさが表れている。倒産出版社などから放出された紙型(活版を作る型)を買い取って、安く作った特価本を「つくり本」という。

これで特価本問屋(株)大正堂のあらましが判ってしまった。近代出版史研究で最先端の知見といっていい。特に解散情報がわかったのはデジコレ・リニューアルのおかげだ。

 

■再検索が意外と有効

ネットを見ていたら、こんなエントリがあった。

 

一度引き当てた文献内で、再度「全部検索」をかけてみる。それも探索キーワードをやや短くして試してみる、という技法である。〈行った先で短め再検索法〉とでも呼んでおこう。なるほどこれなら誤変換もある程度回避できるというわけである。

 

■固有名検索のキーとしてのアドレス

人名でも団体名でも、フルテキ化誤変換の可能性は常に残り続けるので、せっかくのフルテキストなのだから、同じ事柄につながる別要素の文字列を念のため検索してみるのもよいだろう。それで思いつくのが電話・インターネット普及以前、広く連絡先として使われていた「アドレス」だ。つまり住所(地番や住居表示)を検索してみるのだ。同じ番地にいた人間や団体は何らかの関わりが昔は強かったものである。

無名人だった母方の曽祖父を、その戦前住所で検索したところ、家の伝承に出てこない人物が官報に出てきて、大変におどろいている。戸籍を詳細に洗う必要がでてきた。ちなみに「神田区〇〇町1丁目2番地」といった場合、「神田区〇〇町一丁目二」「神田区〇〇町一ノ二」「神田区〇〇一丁目二」といった縮約形も試すこと。〈現在の住居表示を戦前の地番に変換する方法〉もなくはないが長くなるので別講で。

 


 

■(おまけ)言い回し、語誌を探る――「全米が泣いた」の初出は?

ネットを見ていたら、拙著『調べる技術』第9講で事例に用いた「全米が泣いた」という言いまわしの初出は「ニコニコ大百科」にちゃんと出ているよ。それは1976年映画『エリックの青春』の宣伝文だよ、と指摘があった。

 

たしかに「ニコニコ大百科」の当該項目にその旨の記述がある。これまたツイッター情報だと編集履歴も当該項目にあるとのことだが、どうやらニコ動プレミアム会員でないと見られないようなのでインターネット・アーカイブで確認すると2022年5〜8月ごろ加わった部分らしい。

 

■デジコレだとどう出るか

さっそくデジコレを確認すると【図1-6】のようである。私は『調べる技術』第9講でGoogleブックスを使い1965年から1981年の間まで絞り込んでいたが、その先は詰め切っていなかった。

【図1-6】

検索結果一覧では『スクリーン』1976年8月号23コマ目に、「ミリオン·セラー、*全米が泣いた!いまはなきわが子に捧げる映画化!みじかくも美しい青春が走る!すべての人の心に、」と載っていると出る。しかし残念ながらこの本は「国立国会図書館内限定」なのでその先に進めない。

 

■〈答えから引く法〉で確認

困ったなと思っていると、「そうだ、いま答え(の候補)を知っているんだから、答えから引けばいいじゃん」とひらめいた(〈答えから引く法〉は『調べる技術』第13講で説明)。そこで「エリックの青春」で読売新聞のDB「ヨミダス」を検索し(私はNDLでない別機関のIDで家から引ける)、次の結果【図1-7】を得た。

【図1-7】「[広告]映画「エリックの青春」/ヒビヤみゆき座」『読売新聞』(1976.7.16夕刊)p.12

右肩に小さく「全米が泣いた!ひとりの母が悲しみの中で綴ったミリオンセラーの映画化」とあるので、確かに『スクリーン』1976年8月号に載っている映画らしいと判った。ただし、7、8件ほどヨミダスでヒットした同映画の広告を見ると「全米が泣いた」とあるのは2件のみ。ネットにある同映画のチラシを見てもこのフレーズがない。かなり不安定なフレーズだったことがわかる。

 

■出典のテレビ番組を検索する

デジコレから逸脱してしまうが、このフレーズにこだわると――依頼者がいればこだわるもなにもなく、ひたすらこれを追求する――「ニコニコ大百科」の記述が微妙に変である。

 

初出は1976年に公開された映画『エリックの青春』の宣伝が有力視される。

2018年2月20日放送の日本テレビ「ニノさん」での調査によると、映画宣伝プロデューサーである和田康弘さんに伺った情報となるが、雑誌・近代映画社「SCREEN」(1976年8月号)に掲載されていた映画『エリックの青春』の宣伝ページと思われるものが紹介され、そこには「※全米が泣いた!いまはなきわが子に捧げる母の涙のミリオン・セラー、映画化!」と書かれていた。

ただしネット検索では「ねとらぼ」の不完全な調査(https://nlab.itmedia.co.jp/research/articles/1139/exit)が上位に出るため、この初出情報を知る人は非常に少ないと思われる。

https://dic.nicovideo.jp/a/%E5%85%A8%E7%B1%B3%E3%81%8C%E6%B3%A3%E3%81%84%E3%81%9F

 

「有力視される」とか「と思われるものが」などと何やら間接的なのだ。書いた人は調査をしたという番組「ニノさん」を見たのだろうか?

まず、日本テレビ系「ニノさん」は日曜日のバラエティ番組だが、「2018年2月20日」は火曜日である。番組名と日付けのどちらかが間違いなのだろうか? と、テレビ番組の放送結果を検索できるほぼ唯一のDB「TVでた蔵」を人文リンク集経由で検索してみる。どうやら、Googleが当該日情報のクロールに失敗しているらしいので(いわゆる深層ウェブのページにあたる)、当該番組の別放送日情報を見つけ、そこから「過去の放送」というリンクをたどると、次の放送日の情報が見つかる。

2018年2月4日放送12:45 – 13:15日本テレビ「ニノさん 素晴らしき「ベタ」を研究!映画宣伝のベタ「全米が泣いた」の謎が解明!」【図1-8】。

【図1-8】「TVでた蔵」の当該番組クリッピング情報

また、ニコニコ大百科の引用フレーズはそもそも『スクリーン』1976年8月号のデジコレ提示フレーズと異なっている。そこでさらに「”全米が泣いた” ”ニノさん”」でググると、なんと「ニノさん」の当該画面引用【図1-9】が見つかった。画像を拡大すると、たしかに「(株)近代映画社“SCREEN”1976年8月号より」と出典明示されていたことがわかる。

【図1-9】2018年2月4日放送「ニノさん」を紹介するツイッターのエントリ

「ニコニコ大百科」の当該部分を書いた人はこのツイッターを見たのではなかろうか。このエントリには放送日が明示されず、掲載ページの説明がわからない点でニコニコの記述と符号するように思う。現在はないが、以前はNDL人文リンク集にニコニコ大百科とピクシブ百科事典がリンクされていたので復活させておくとよいだろう。

「全米が泣いた」の初出は1976年『エリックの青春』の日本語宣伝文が初出らしいと言っていいだろう。もちろんそれは当面は、のことで、初出というものは、後からより古い事例がでてきた段階で書き換わるものであることには注意しておきたい。

 

■次回予告

戦前は社説はないが新聞そのものであった官報。その官報をデジコレのフルテキで引ききることはできるのか?! ということで、「デジコレの2022年末リニューアルをチェック! 官報編」をやるつもりです。

 


小林昌樹(図書館情報学研究者)

1967年東京生まれ。1992年慶應義塾大学文学部卒業。同年国立国会図書館入館。2005年からレファレンス業務に従事。2021年退官し慶應義塾大学でレファレンスサービス論を講じる傍ら、近代出版研究所を設立して同所長。2022年同研究所から年刊研究誌『近代出版研究』を創刊。同年に刊行した『調べる技術』が好調。専門は図書館史、近代出版史、読書史。詳しくはリサーチマップを参照のこと。

 

☆本連載は皓星社メールマガジンにて配信しております。

月一回配信予定でございます。ご登録はこちらよりお申し込みください。