重生之乘風而起正文卷第一千一百零三章時來天地同運力“不過對於構建信息化字庫來說,讓程序識彆字根,會讓我們的效率得到巨大的提高。”
“原來如此。”冷玉龍點頭:“那我們再說回《字海》。”
“漢字有新舊字形之彆,因此我們在《字海》,字頭還是采用新字形;而在《印刷通用漢字字形表》以外的字頭,則依該表原則作了整理;”
“那就是相當於製作了一部新的,概括範圍更大的《印刷通用漢字字形表》”周至問道。
“是的。”韋一心點頭:“不過你們的字根法更加科學,不必用回來。”
冷玉龍也點頭表示認可:“《字海》裡的繁體字字頭後,也附有相應的簡化字,簡化字範圍限於《簡化字總表》之內。”
“《字海》注音用漢語拚音字母,並在其後加注直音,直音以現代讀音為據;”
“多音字讀音按常見音項在前,非常見音項在後的順序排列,無法判斷常見或非常見的字音則按引例時代先後排序。”韋一心補充道:“有異讀的字,則按普通話語音審定委員會審定音來標注。而方言字,則依方言與普通話讀音對應規律或實際讀音來注音。”
“差不多就這些了吧”冷玉龍問道:“辭書的釋義部分和字碼沒什麼關係了,還用講嗎”
“講,我也學習學習。”周至聽得美滋滋的,這還是他第一次曉得如何編纂一本《字典》,尤其是釋義部分,和字庫編纂沒有什麼關係,因此興趣更加的濃厚。
冷玉龍對周至的好學精神很滿意,笑道:“釋義的話,我們先解本意,次引申義。”
“對於異體字、簡化字、二簡字、錯訛字,不單獨釋義,也不注音,但雲‘同‘某’’,‘‘某’的簡化字’,‘曾作‘某’的簡化字’,後停用’,‘‘某’的訛字’等,同時,還要以‘見’或‘字見’的方式,指明其出處。”
“字以楷書隸書作成字卡,共收漢語單字556個。主要收字依據一共有十一個來源。”韋一心如數家珍:
“一是曆代辭書,如《說文》、《玉篇》、《廣韻》、《集韻》、《康熙字典》等書中收錄的漢字。”
“二是曆代辭書未收而見於文獻典籍的漢字。”
“三是國家語言文字工作委員會頒布的《簡化字總表》中的全部簡化字。”
“四是甲骨文、金文和竹簡、帛書中學術界比較公認的隸定字。”
“五是曆代碑刻中的異體字。當然了,訛字除單體字外,我們一般不收。”
“六是地方文獻和方言辭典中的方言字。”
“七是近現代出現的科技新字。”
“八是當今還在使用的人名和地名用字。”
“九是當今出版物中出現的超出《簡化字總表》範圍之外的類推簡化字。”
“十是七七年中國文字改革委員會公布的那一版《第二次漢字簡化方案草案》中的漢字。”
“最後就是流行於港、澳、台地區的漢字。在日本、韓國、新加坡等國使用的漢字,本書也酌量收錄。”
冷玉龍補充道:“此外,為了充分反映漢字的實際情況,《中華字海》還酌量收錄了曆代文獻中的新舊筆形與訛字。”
“這一部分的收字標準,我們采用‘單體字從寬,合體字從嚴’的規則。一般單體儘量收錄,合體字儘量不錄。”
“還有最後一部分工作,就是整理過程中的清理。”韋一心說道:“《中華字海》在前任字書未及的異體字與錯訛字方麵,進行了一些清理與合並工作。在釋義當中,儘量將諸多典籍中的釋義和釋疑儘量找齊,合並到一個字的釋義之下。”
“如字,《漢語大字典補遺木部》:‘,樹名。’《太平禦覽》卷七百七十引周處《風土記》:預章諸木,皆以多曲理盤結為堅勁也。’但是並未注音。”
“而《字海》綜合《漢語大字典》出版後的一些考釋成果釋為:“,同‘楠’。見《龍龕》。”
“類似這樣的後補考證成果,我們也將之補充進《字海》的字釋義之下。”
“加上我們自己未能考訂確實的《補遺》部分,《字海》其實一共收錄了709個漢字。”
“太了不起了。”周至不禁感慨:“這可不是把我們要乾的活都乾了啊”
“要點臉。”辜開來不禁翻起了白眼:“什麼叫你要乾的活”
“兩位師兄的搜字範圍,幾乎已經囊括了我們所能想象的全部啊。”周至樂得都不行了:“還是用楷體建卡,我估計自動程序掃描識彆的問題應該不大。”
“那就走吧,先去庫房看看。”冷玉龍比周至還急:“要是合用那就撿大便宜了,咱們可以把《字海》的出版工作儘快提上日程!”
“嗯,等到確定了可行性,我們就去找李國傑教授打擂台!”
“李國傑教授”韋一心搜索了一下自己認識的文字學大擘,似乎沒有這麼個人,轉頭問冷玉龍:“冷泉你聽過這人嗎”
見韋一心誤會,周至方才笑道:“李國傑教授是曙光超算中心負責人,之前我們想要一點運算資源,國傑教授那叫一個摳門啊……這次我們找上門去,堵著他打擂台!”
北大係幾間資料室裡,冷玉龍和韋一心八年多的心血,靜靜地躺在這裡。
整個資料室分作了兩百多個部分,按照《中華字海》的字頭索引方式,分門彆類地歸納在文件櫃裡。
每一個櫃子裡都有幾個紙箱,箱子裡是一個個的文件袋,裡邊一遝一遝的都是硬紙卡片。
對於翻習慣了字典的人來說,每一張卡片,其實就是字典上關於一個文字的本字及注解區域。
卡片左上角是一個標準的大田字格,文字端正的楷書就寫在那裡,接著是拚音注音,釋義,摘引文獻等等“凡例類目”。
將幾間大屋子的所有資料一頁頁鋪起來,影印縮小,就是一部《中華字海》。
或者說,將未來的一部《中華字海》放大,裁剪開,就是這幾大屋的資料。
“應該沒問題。”周至看著一絲不苟的字卡,不由得大感佩服:“這連標點的大小和寫法,都有規範,每個逗號都幾乎一模一樣啊……”
“這是門裡的老傳統了,逗號需要按照‘日’字格分作上下兩個部分,上部為圓形,圓周與‘日’字格邊框相切,斜弧線那一筆要頭粗尾細,頭部從圓與日字格右切點開始,寬度占圓周八分之一,然後收細畫弧,筆尖到日字格左下結束。”韋一心笑道:“當然是有規矩的。”
“時來天地同運力。”周至都樂壞了:“確認了,一個老師教出來的!瀚文字庫逗號的矢量化規則也是這樣!”