悠遊字在專欄
2019年10月18日

悠遊字在 第94篇 「字元集的束縛」

「字元集」是一種束縛。
 
在一台電腦上打好的文件,為了使它在另一台電腦上也能正確閱讀,必須事先約定好哪些文字是雙方都能使用的,這就是「字元集」的概念。
正因為有這樣的約定,人們才能在電腦或智慧型手機上順利閱讀訊息與郵件。知道這點的大概只有相關產業人士吧。
 
超出這個約定範圍的字將無法正常顯示,有時會呈現空格,有時會變成兩條刪節線(〓)。這種文字稱為「外字(罕用字)」,近年來雖然已逐漸消失,不過一旦出現,往往令人非常反感。
 
「字元集」正確來說稱為「編碼字元集」,是用來定義電腦世界中「應該處理哪些文字和符號」,為了不讓字和符號重複,而經過事先規範的文字組。
 
日本是透過「日本工業規格(JIS)」來建立規範。最新的字集規格是JIS X 0213:2012,規範了11,233個字與符號。將收錄在JIS X 0213規格中的文字和符號分類統計,可得出以下數據:
 
漢字:10,050個字
平假名:91個字
片假名:115個字
其他(英文字母、阿拉伯數字、符號等):977個字
 
換算成百分比的話是:
 
漢字:89.5%
平假名:0.8%
片假名:1%
其他:8.7%
 
有一份資料雖然古老,但值得參考。1982年日本國立國語研究所發表了一份研究成果,標題為《各類文章文字種類的比例》(佐竹秀雄)。其中,他公布了日常生活一般文書中所含的漢字及其他文字出現頻率的平均比例,結果如下:
 
漢字:26.5%
平假名:57.3%
片假名:7%
其他(英文字母、阿拉伯數字、符號等):9.2%
 
也就是說,日常生活的一般文書中,漢字僅占26.5%,但在最新字集規格中卻占了89.5%;而文書所占比例多達57.3%的平假名,在字集規格中卻只占了0.8%。
 
在開發新字型時,光是為了要支援日常文書中占26.5%的漢字,就必須造10,050個漢字不可。那麼,造了10,050個字以後,是否就能完整支援所有日文文書資料或電腦文件呢?答案是否定的。就算造了那麼多字,無法顯示的字數依然多不勝數。在諸橋轍次主編的《大漢和辭典》(大修館書店發行)中,光算詞條就已超過五萬字。
 
日本第一個包含漢字與假名的字集規格是JIS C 6226,於1978年制訂。當時包含漢字、平假名、片假名及其他字元在內,僅收錄了6,802個字。
其後,收錄字數急速增長,在最新的JIS X 0218規格中已高達11,233個字。
 
字集規格除了JIS以外,還有一個在電腦世界中逐漸成為業界標準的「Adobe Japan1」(*1),其收錄字數最多有23,058個字,廣泛應用在出版、印刷業界。
 
這些為了在電腦上顯示、印刷日文字體而制訂的字元集,似乎也很希望能擺脫收錄字數的束縛呢。

 


注釋
*1:Adobe Japan1
Adobe Japan1是由Adobe公司所制定的日文字體印刷業務用之字集規格,正式名稱為「Adobe-Japan1 Character Collection for CID-Keyed Fonts」。



▶ 一覽 悠遊字在專欄 文章

 

 作者簡介

mk88
DynaComware Corp 顧問

1942年出生於東京都。
1966年畢業於桑澤設計研究所視覺設計學科。
曾任職於設備機器廠商、報社、廣告公司,並在綜合印刷公司參與了DTP黎明期的多國語處理及印刷工作流程的建構。
設計學校畢業後曾以平面設計師的身分經歷了活字、照相排版、DTP印刷工作。
1998年起任職於DynaComware Corp。
曾擔任網頁印刷服務、數位文件管理工具、電子書專用字型開發、字型授權業務、中文字碼規格GB18030日本國內普及諮詢窗口等職務。
Blog:mk88の独り言(mk88的自言自語)

 

下一則 : 悠遊字在 第97篇 「馬禮遜和台約爾之墓」   
上一則 : 悠遊字在 第95篇 「天文學與印刷」