きりがない語彙

NINJAL-LWPがバージョンアップして公開されました。
http://nlb.ninjal.ac.jp/search/

これは

国立国語研究所(以下、国語研)が構築した『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するために、国語研とLago言語研究所が共同開発したオンライン検索システム

だそうです。
書籍、国会議事録、ヤフーブログなどからとった6200万語の資料から8万870語が検索できます。
この語のなかで頻度トップは「いる」の626,517件。
以下「こと」「の」「する」「なる」「ある」など。


日本語能力検定N1級は約1万の語彙が必要とされますので、
頻度が280の「憤る」「金魚」「称賛する」「スタイル」などが1万語レベルの語彙になるのでしょうか。
しかし、日本人成人の語彙は4〜5万と言われています*1


4万5千あたりの語を見てみると、頻度は16でグッと下がります。
たとえば「鍛錬する、席替え、節足動物、セツルメント、船影、不届きな・・・」
更に、6万3千を越えてくると、頻度は3以下になります。


「わしづかみする、湧き起こる、わかやかな、輪飾り…」これらが8万語レベル。
日本人でも知らない言葉もでてくるでしょうが、それでも知ってる言葉もかなりあります。特に専門用語ばかりというわけではありません。
しかし、もし私が日本語学習者で、読書など日常生活を通してこれらの単語を覚えようとすると、かなりの冊数の読書をしてやっと1回2回であうだけです。


今まで私は読書・映画鑑賞(中国語字幕)・アモイ大学の通信課程の教材/課題を通して中国語に触れてきました。頻度の高いものはこういった生活の中で自然と覚えてきたわけですが、これからは、頻度の低いものを意識して覚えていく必要があるかなとおもいます。
(その場で覚えなくても、記録ぐらいはしていこうと)
ただ、すべての語彙を習得することはもちろんネイティブでもできない話ですので、どこかで妥協する必要があります。
たとえば、某中国語単語帳(帯には3〜2級レベルとある)に収録されてような「さくさくのリンゴ」「ルージュとマスカラ」などは、見てなんとなく意味がわかるので、アウトプットできるレベルにまで仕上げるつもりはありません。


ちなみに、
《汉语水平词汇与汉字等级大纲》によると中国語のカバー率は
3000語:86%
5000語:91%
8000語:95%



日本語教育能力検定の教科書あたりには玉村文郎の表がでてますが、
中国語の部分は、北京語言学院語言教学研究所編の『現代漢語頻率詞典』(1986年)
によっているようです。
500語:63.1%
1000語:73.0%
2000語:82.2%
3000語:86.8%
4000語:89.7%
5000語:91.7%


最初の1000語で73%なのに、更に1000語覚えても9%しか増えず、以後5%、3%、2%とどんどん落ちていきます。


参考(過去記事)「語彙」
http://d.hatena.ne.jp/quesaisje/20100113/1263388828

*1:これは、見たり聞いたりしてわかる語彙=理解語彙の数です。使用語彙は理解語彙の約3分の1と言われています