皓星社(こうせいしゃ)図書出版とデータベース

第四回 Googleブックスの本当の使い方――日本人が本文検索をするために

小林昌樹(図書館情報学研究者)

■はじめに

皓星社公式ツイッターで第四回テーマのアンケートを取ったところ、いちばん票をとったのがGoogleブックスの使い方についてだった。「さて困った、あれは役には立つが、立たせるのにコツがいる。それにいきなり仕様変更するし、今年の初めだったかも変更したばかりで新しいからくりに自分も不慣れだ」と思ったのだが、「日本語の本を調べもののために検索するのに役立つ知識だけ」さらっと説明することにした。

 

■日本人にとって「使い物に」なったのは2006年から

発祥はともかく、我々、つまり日本語の本を調べたい人にとってGoogleブックスが始まったのは2006年のことだった。それまで英文など外国語ばかりで普通の日本人に縁がなかったが、ミシガン大学など米国大学にある「日本研究」――そういう学問があるのです――のコレクションが大量に検索できるようになったのだ。

2007年には慶應義塾大学から日本語書籍12万冊分が入ったが、同時期、ハーバード大学から1550万冊分が入っているのと比べると100分の1で、そこからの類推と、実際にここ15年ほど毎日のように使った感触から、やはり米国大学の日本書のプレゼンスは欠かせない。

 

○新しくって著作権OKの本は説明しませぬ

最近の本でGoogleブックスに出版社or著作権者がOKを出して、電子書籍よろしく見られるものがあって、それは結構便利なのだが調べものにはあまり使わなかった。というか、ノイズになってしまったりもする。疑問、質問はいま生きている我々から生産されるので、我々が知っていること、憶えていること、生きている誰かに聞けばよいことはレファ質問になりづらいのだ。また、近年の全文検索は別の手段がなくはない。連載で紹介した人文リンク集の言語>用例検索を見てほしい(https://rnavi.ndl.go.jp/humanities/entry/post-6.php)。また大手新聞DBも1980年代後半からは記事部分が全文検索になっている。

 

○1995年の著作権未処理のものが重要

デジタルの言説空間(ネット世界)で調べものをする際に、日本の場合、調べたいことが1995年より前か後かがすごく重要。というのも、ウィンドウズ95の普及で1995年以降、デジタルボーンのテキストが劇的に増え、それ以降の出来事はネットで調べることが容易になったからである。逆にいうと、調べものでGoogleブックスが必要になるのは1995年以前のことを調べる場合である。また量的に著作権OKの古い本――例えば慶應大12万冊分に多い――よりもずっとたくさんのブツ切れ本の情報を活かせるかどうかが、現在ただいま調べものにGoogleブックスを使える人になれるかどうかがかかっている。

 

○引けるのは図書、雑誌

引けるのはおおむね図書(書籍、まぁ単行本のこと)なのだが、雑誌、特にいわゆる「総合誌」をはじめとする、日本研究に使えそうな雑誌が全文検索できる状態である。ここで全文とは、本当の全部で、広告中の文章も入る。従来、人間が目で見て索引語をピックアップする「概念索引法」でなく、まったく機械処理だけの「自動索引法」なので、広告文もヒットするのはありがたい。

新聞紙は引けないようだが、実は新聞の縮刷版は引けるようである。官報もヒットするが、ヒットした文言が載っている巻号を、きちんと同定できないので事実上、たどれないことが多い。

雑誌も官報も米国大学で図書館製本された単位でヒットするので、実際の巻号をどうやってつかむかがカギになる。

Googleブックスに「ツール」という固有のバーが出てきて「すべての書籍/本/雑誌/新聞」が選べるが、少なくとも古い日本の本に関しては雑誌もなにもかも「本」あつかいのようだ。

 

○読むのには使えない。一部しか見えず、テキストに前後入替がある。

しかし、この古めのGoogleブックス日本語本、読むには堪えないのだ。理由は2つ。ひとつは出版社、著作権者相手の訴訟で、Googleブックスはあくまで索引だと言い張らねばならなかったから。全文が検索はできでも、全文をちゃんとは読めないようになっていなくてはならないのだ。そうでなくてはそれはただの(?)電子書籍になってしまう。それで、全ての本文は検索できるが、本文自体は限定表示(「スニペット」【snippet】表示とも呼ばれる)になっている。

また、これはあまり指摘されないのだが、限定表示されるテキスト文は、センテンスを切らないようにして、同じページ内で適当に前後を入替えたりしているようだ。この著作権避けの入替えがあるのでテキスト文をそのまま使うのは危険である。

 

○誤変換たくさん!

もうひとつは、日本語ないし漢字のOCR(文字読み取り)の精度がかなり悪いものだったので、誤変換が多い。これには、こっちで用意する検索語をなるべく短くしたり、誤変換を想定した語を用意する必要がある(「大使館」を引きたければ「大便館」も引く)。

 

■だから結局、本の現物に戻らないといけない

書籍なら、それなりにきちんとデータが表示される書誌データから、本の現物を見ないといけない。雑誌であれば、巻号を特定して、やはりどこかで現物を見ないといけない、というのが現状、Googleブックスを調べものに使う必要条件となる。首都圏であれば、国会図書館に行って、なんとかするということになる。日本人にとって皮肉なことにGoogleブックスは、まさに本来の索引の機能しか果たしていないわけである(米国では資料提供図書館内などで版面画像も見られ、誤変換索引情報でもかなり使える電子書籍となっているらしいが……)。

 

■事例:「全米が泣いた」というフレーズの初出はいつか?

みんなが知っているけれど、いつの間にか始まった言い回し、紋切り型表現などを検索するのに、Googleブックスは威力を発揮する。例えば次の例。

・「初めて「全米が泣いた」映画が登場したのはいつ? → 本気で調査してみたら、俺が泣きそうになった」『ねとらぼ調査隊』

上記記事では「映画業界で働いている人たちにさえ分からない難問」で、神保町古書店街でポスターを通覧したが2000年前後のものしか見つからず、フィルムセンター図書室で戦後のキネ旬を通覧に及んだとのこと。1965年まで調べて、結局、「全米が泣いた」というフレーズは見つけられなかった様子。これをさっそくGoogleブックスで検索してみよう。もちろん、事前にざっさくプラスやNDLサーチなどを引いて、目次レベルを検索して、1986年の『週刊明星』29巻7号にこのフレーズが出ることは確認してある。ただのGoogleを見ると、このフレーズ、近年「全俺が泣いた」というネットスラングに進化したらしい。

 

○フレーズ検索を使う

さっそくただのGoogleに「全米が泣いた」を入力し、「もっと見る」をプルダウンして「書籍」を選ぶと、Googleブックスの検索結果が示されるわけだが……。どうやら最近流行りの「関連度順」に表示されるらしく、2010年代の本がじゃかすか出る上に、20画面もめくると、勝手に形態素「全米」「泣いた」にわけた検索結果をかませてくるので、調べものにならない。そこでどうするか。前後をダブル・プライム(クォーテーション)で括ったフレーズ検索「”全米が泣いた”」で検索する。フレーズ検索でなく、普通に検索してその結果から意外な言葉の取り合わせに気づくことも多いが、調べものにはフレーズ検索を手の内に持っているとよい。

 

○期間「20世紀」を選ぶ

さらに、ツールバー「期間指定なし/21世紀/20世紀/19世紀/期間を指定」で「20世紀」を選ぶ。日本は近代化が遅れた一方、現在ただいまも機能している知的枠組みがだいたいできたのが、大正期から昭和戦前期なので、2000年代(つまり21世紀)のノイズを排除するのに、「20世紀」を選ぶと効率的。「期間を指定」でもよいが、多く素早く調べるのには不向き。

「”全米が泣いた”」でフレーズ検索し、「20世紀」をえらぶと、最初に1981年の「キネマ旬報 – 第 802~805 号 – 6 ページ」、次に1997年の「朝日新聞縮刷版 – 第 907 号」、さらに1981年の「映画年鑑」が出てきて、それぞれスニペット表示される。

 

・図1 ”全米が泣いた”の20世紀分検索結果

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本当ならここで年代順に結果をソートできれば調べものに役立つのだが、その機能が以前はあったが最近なくなったので、できない。この事例では結果は7件だけで一画面に収まるので、全部見る、ということになる。

 

○一覧はおしまいのほうから見る

この事例のように少ない場合はよいが、多い場合には、しょうがないので全部見ていくことになるが――調べものは辛抱が必要な部分もある――一覧表示の後ろのほうから選んでいくと効率的だ。というのも、Googleは、実際にはデータがない一覧も10or20個用意してクリックできてしまうから。”全米が泣いた”で「21世紀」を選択すると、たくさんあるかのように見えるが、「限定・全文表示」を選んでクリックすると(古いデータだと「すべて表示」のままがよいようだ)、実際には6画面分しかない。最後の画面を選んでさかのぼるようにすれば、一応全部見たことになる。

 

・図2 15画面ありそうで、実際は6画面で打ち止め

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

○一覧も漫然と見るのではなく、次の一手を見つけるように見る

こういった全データチェックをしていく途中で書誌データに気を配れば、たとえば、『アメリカンジョーク2ちゃんねる選抜』(p.51)にもこのフレーズがあるとわかり、「そうか、2ちゃんねるの全文検索サービスがあれば――あるが、有料――それで他の手がかりを得られるかもしれない」という次の一手が思いつくわけである。

同様に20世紀の一覧で途中に次の結果を見つけたら、あわててどこかの図書館で冊子の索引を見るか、そのオンライン版Web OYA-bunkoを検索することにもなろう。

>>

大宅壮一文庫雑誌記事索引総目錄, 1988-1995: 人名編books.google.co.jp › books

大宅壮一文庫 · 1997 · ‎プレビューは利用できません

<<

米国の日本研究資料には多くレファレンス図書が含まれており、こういった結果もヒントになる。

それはともかく最初の『ねとらぼ調査隊』が1965年まで「特定雑誌通覧法」でこのフレーズがキネ旬にないことを確認しているので、あとは1965年から確実に見つかった1981年までの同誌を通覧すればよいということになる。

 

■Googleブックスに関するその他のチップス

・検索語に、いろんなバリエーションを考えたうえで、適宜、短くしてフレーズ検索してみる。例:「”全米が泣”」「”全米が笑った”」「”全米が” ”泣いた”」「“全米が震えた“」

・雑誌などの巻号がデータにない場合、表紙画像を拡大するとわかる場合がある。

・ページのデータは間違っていることが多いが、桁が違ったり、部分的にあっていることもある。

・普通名詞よりも固有名詞で検索したほうがショートカットになることも。

・適宜、フレーズを外してみるのもよい。限定表示で新しい検索語の候補が見つかることも。

・新聞雑誌で明治期のものは現物、原紙からのデジタル化でなく、復刻版であることが多い。

・人文リンク集>便利ツール(https://rnavi.ndl.go.jp/humanities/entry/post-35.php)にあるような、新旧漢字変換を使って、旧漢字でも検索してみる。例:図書館→圖書館、縦覧所→縱覽所

 

■まとめ

Googleブックスを調べものに使う場合、現状の日本では次のように言えるのではなかろうか。

・20世紀など、古いことを調べるのに有効:期間選択をうまく使う。

・フレーズ検索を適宜使う

・紙資料との組み合わせで考える:元の本を図書館などで見つける

説明文中でも少し触れたが、用例検索の一環で引く場合が多いので、青空文庫、国会会議録索引などとセットで理解するといいかもしれない。

現状でNDLがそのデジコレ画像から全テキスト起こしをしはじめている。おおいに結構なことだがGoogleブックス日本語分をどのように超えていくのか、まだわからない。とりわけ今まで死蔵されてきた戦前の新聞記事などに非常に有効だと思うのだが。

 

■司書向けのメモ

NDLのレファ協を引くと、大阪市立中央図書館が2007年ごろからGoogleブックスを日本語検索で使い始めているようだが、実は国会図書館でも現場では私あたりがさかんに使い始めており――2006年には本当に驚いた――ただそれが同DBに2010年代まで出ないのは、回答文に記載するのがはばかられたからであろう。しかし、使えるものは何でも使い、そしてそのプロセスを正直に書いたほうが、ノウハウ共有に有効だろうと思う。一方で、紙資料のこと――特に書誌学的な内形式、外形式ともに――もきちんと知っておかないと、現状のGoogleブックス日本語分は使えないとも思う。

 

■次回予告

今号は、皓星社公式Twitterアカウント(@koseisha_edit)にて事前にアンケートを取った中で、最も要望の高かった《Googleブックスはどう使う?》というテーマで小林さんにご寄稿いただきました。次回は、続いて票の多かった《戦前の新聞記事はどう探す?》――出版年によって形態もさまざまな新聞記事の探し方をお教えいただきます。知りたい事柄に近づく第一歩としてのレファレンス・チップス、次回もどうぞご期待ください!(皓星社編集部)

 


小林昌樹(図書館情報学研究者)

1967年東京生まれ。1992年国立国会図書館入館。2005年からレファレンス業務。2021年に退官し慶應義塾大学文学部講師。専門はレファレンス論のほか、図書館史、出版史、読書史。共著に『公共図書館の冒険』(みすず書房)ほかがある。詳しくはリサーチマップ(https://researchmap.jp/shomotsu/)を参照のこと。

 

☆本連載は皓星社メールマガジンにて配信しております。

月一回配信予定でございます。ご登録はこちらよりお申し込みください。