漢字識(shí)別范文10篇

時(shí)間:2024-02-05 01:33:25

導(dǎo)語(yǔ):這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗(yàn),為你推薦的十篇漢字識(shí)別范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。

漢字識(shí)別研究論文

1主要研究

1.1字形屬性對(duì)漢字識(shí)別的影響

受西方已有研究理論的影響,長(zhǎng)期以來(lái)關(guān)于漢字識(shí)別的加工單元也有兩種觀點(diǎn):一是認(rèn)為識(shí)別漢字要先對(duì)筆畫、部件等漢字的字形特征進(jìn)行分析,然后將分析的結(jié)果整合從而識(shí)別整字。那么,在漢字識(shí)別過(guò)程中就會(huì)存在筆畫數(shù)效應(yīng)、部件數(shù)效應(yīng)等。二是認(rèn)為識(shí)別漢字直接以整字為單元,強(qiáng)調(diào)字形知覺的整體性。到80年代末90年代初,已有許多研究表明在漢字的視覺識(shí)別過(guò)程中,要經(jīng)過(guò)特征分析[1]。近10年以來(lái),漢字識(shí)別的特征分析觀點(diǎn)得到了更多的研究結(jié)果的驗(yàn)證:首先是采用不同的方法證實(shí)了筆畫數(shù)效應(yīng)的存在。如喻柏林等[2]采用命名識(shí)別法,發(fā)現(xiàn)在2至15畫的范圍內(nèi),漢字的命名反應(yīng)時(shí)隨筆畫數(shù)的增加呈臺(tái)階狀上升趨勢(shì);張武田等[3]發(fā)現(xiàn)在高頻字當(dāng)中存在筆畫數(shù)效應(yīng);彭聃齡等[4]采用命名作業(yè)和真假字判斷作業(yè)也發(fā)現(xiàn)有顯著的筆畫數(shù)效應(yīng)。其次是發(fā)現(xiàn)部件因素對(duì)漢字識(shí)別的影響。有研究發(fā)現(xiàn)了啟動(dòng)部件對(duì)合體漢字識(shí)別的影響[5],提示漢字的部件作為單個(gè)結(jié)構(gòu)反復(fù)認(rèn)讀,有可能成為漢字識(shí)別的加工單元之一,而且比筆畫更符合簡(jiǎn)約的原則。張武田等[3]、彭聃齡等[4]的研究結(jié)果進(jìn)一步證實(shí)了部件數(shù)效應(yīng)的存在。

不僅部件的數(shù)量影響漢字識(shí)別,研究證明部件頻率(即在合體漢字中出現(xiàn)的次數(shù))也是影響漢字識(shí)別的因素之一,但其作用受到整字頻率和結(jié)構(gòu)類型的影響[6]。黎紅等[7]的研究也發(fā)現(xiàn),在速示條件下,部件頻率影響漢字識(shí)別的準(zhǔn)確性,而且部件頻率對(duì)漢字識(shí)別的作用模式與刺激字及其組成部分的空間排列有關(guān)。

在漢字的構(gòu)造部件之間還存在不同的組合以及組合頻率。采用整字識(shí)別和整合識(shí)別等實(shí)驗(yàn)任務(wù)的研究表明,部件組合與部件有類似的頻率效應(yīng),而且部件組合頻率的作用也受到正字頻率和結(jié)構(gòu)類型的影響[8]。第三是證實(shí)了結(jié)構(gòu)方式效應(yīng)的存在。喻柏林、馮玲等[9]和喻柏林、曹河圻[10]在不限時(shí)呈現(xiàn)整字條件下,分別令被試對(duì)雙部件和單部件做命名反應(yīng),結(jié)果一致發(fā)現(xiàn)存在結(jié)構(gòu)方式效應(yīng),命名上下字的反應(yīng)時(shí)要明顯長(zhǎng)于左右字的部件。陳傳鋒、黃希庭[11]進(jìn)一步研究發(fā)現(xiàn)了結(jié)構(gòu)對(duì)稱性效應(yīng),識(shí)別結(jié)構(gòu)對(duì)稱性漢字的加工明顯快于非對(duì)稱性漢字,而且這種結(jié)構(gòu)對(duì)稱性效應(yīng)在低頻字中起作用,而在高頻字當(dāng)中不起顯著作用;在多筆畫字中起作用,在少筆畫字中不起顯著作用。

獨(dú)體字直接由筆畫構(gòu)成,不存在部件這一結(jié)構(gòu)層次,而且許多獨(dú)體字本身就是構(gòu)成合體字的部件。那么在對(duì)獨(dú)體字進(jìn)行認(rèn)知加工時(shí),是必須經(jīng)過(guò)特征分析還是直接以整字為單元?肖崇好等人[12]將獨(dú)體字中除去點(diǎn)、鉤、提、短的橫豎撇捺以外的其它筆畫作為該漢字的框架筆畫,把每個(gè)獨(dú)體字的結(jié)構(gòu)分為框架結(jié)構(gòu)和非框架結(jié)構(gòu)。研究結(jié)果發(fā)現(xiàn),在速示條件下,獨(dú)體漢字的識(shí)別從識(shí)別筆畫開始,經(jīng)提取框架結(jié)構(gòu)后,才完成識(shí)別過(guò)程。與“框架結(jié)構(gòu)”的觀點(diǎn)相類似,沈模衛(wèi),朱祖祥[13,14]研究結(jié)果也表明,在含有十或口的獨(dú)體漢字中,十與口是該類漢字的突出視覺特征的理論。這些結(jié)果表明對(duì)獨(dú)體字的加工也經(jīng)過(guò)特征分析。

查看全文

淺析漢字識(shí)別技術(shù)檔案管理

關(guān)鍵字:技術(shù)方式檔案圖像利用信息數(shù)據(jù)文本目錄漢字識(shí)別

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

查看全文

漢字識(shí)別技術(shù)應(yīng)用研究論文

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

漢字識(shí)別技術(shù)在檔案管理工作中應(yīng)用論文

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

檔案文本數(shù)據(jù)開發(fā)信息資源應(yīng)用分析論文

編者按:統(tǒng)籌考慮檔案狀況、人員配備、經(jīng)費(fèi)能力、辦公自動(dòng)化水平、檔案現(xiàn)代化建設(shè)發(fā)展規(guī)劃等方面的因素,本文通過(guò)漢字識(shí)別技術(shù)的應(yīng)用價(jià)值、漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問(wèn)題以及漢字識(shí)別技術(shù)的應(yīng)用方式三個(gè)方面來(lái)探討切實(shí)提高檔案信息資源開發(fā)利用能力。

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值

漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

查看全文

文本檔案數(shù)據(jù)屬性問(wèn)題分析論文

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

二、漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問(wèn)題。

原始性是檔案的基本屬性。漢字識(shí)別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識(shí)別、校對(duì)、修改等工序后形成的復(fù)制加工品,因此不具有檔案的原始性。

查看全文

檔案目錄數(shù)據(jù)錄入論文

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

普及漢字識(shí)別提高檔案信息資源開發(fā)論文

編者按:本文主要從漢字識(shí)別技術(shù)的應(yīng)用價(jià)值;漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問(wèn)題;漢字識(shí)別技術(shù)的應(yīng)用方式進(jìn)行論述。其中,主要包括:把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息、精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值、提供了一種新的檔案目錄數(shù)據(jù)的錄入方式、原始性是檔案的基本屬性、知識(shí)性是檔案的又一個(gè)屬性、漢字識(shí)別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息、方便用戶,可減少信息利用過(guò)程中的重復(fù)勞動(dòng)、輸入檔案目錄、掃描、保存圖像并提供利用、建立文本數(shù)據(jù)庫(kù)、輸入目錄并保存圖像、保存圖像、建立文本件數(shù)據(jù)等,具體請(qǐng)?jiān)斠姟?/p>

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值

漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

查看全文

檔案技術(shù)管理論文

漢字識(shí)別技術(shù)(簡(jiǎn)稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過(guò)光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。

一、漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面:

一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。

首先,從庫(kù)存檔案的情況來(lái)看,近幾十年來(lái)形成的大量印刷漢字檔案記載了我們黨和國(guó)家的重要?dú)v史,對(duì)我國(guó)現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說(shuō)都只是固定在紙質(zhì)載體上的死信息。既使通過(guò)掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來(lái)看,每年接收的檔案中仍然會(huì)有相當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊?lái)文,或?yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。

另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。

應(yīng)用計(jì)算機(jī)以來(lái),漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡(jiǎn)便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來(lái)說(shuō),掌握起來(lái)確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫(kù)的因素之一。OCR軟件為我們提供了一條新的途徑。它通過(guò)“拖拉”的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去,簡(jiǎn)單易學(xué),一看就會(huì)。遺憾的是手工“拖拉”速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫(kù)提供了一條前所未有的途徑。而且,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫(kù),例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。

查看全文

科學(xué)家建國(guó)60周年優(yōu)秀征文

一條大河,歷經(jīng)幾千年,流淌的盡是漢字。

甲骨文的波紋、金文的漣漪、篆書的漩渦、隸書的浪花……沿路講述著倉(cāng)頡造字的傳說(shuō),傳頌著中華民族博大精深、源遠(yuǎn)流長(zhǎng)的文明。

漢字起源于中原,但漢字沒有國(guó)界邊陲。在歷史上,越南、朝鮮和日本都曾經(jīng)用漢字記錄他們的語(yǔ)言。越南的本國(guó)文字——字喃,是以漢字為基礎(chǔ)創(chuàng)制出來(lái)的;韓國(guó)至今使用的還是漢字和韓字(即諺文)的混合體文字;已在世界占據(jù)重要地位的日本文字目前仍保留有1945個(gè)簡(jiǎn)體漢字。將漢文化和漢字象種子一樣撒向歐洲、美洲、非洲等世界各地的,其功績(jī)莫過(guò)于張騫兩通西域、唐朝“對(duì)外開放”,以及鄭和七下西洋。

國(guó)興則漢字熱,國(guó)衰則漢字冷。新中國(guó)成立后,漢字飽嘗“世態(tài)炎涼”,才又開始活躍起來(lái)。進(jìn)入二十一世紀(jì),中國(guó)日益強(qiáng)盛,經(jīng)濟(jì)實(shí)力排名世界第三,綜合國(guó)力排名世界第四,漢文化和漢字也隨之風(fēng)靡世界。據(jù)國(guó)家漢辦主任許琳介紹,到目前,全世界已有81個(gè)國(guó)家建立了256所孔子學(xué)院和58所孔子課堂。世界著名大學(xué)中有44所大學(xué)建立了孔子學(xué)院。此外,還有40多個(gè)國(guó)家150多個(gè)學(xué)校和機(jī)構(gòu)已經(jīng)提出申請(qǐng)?jiān)O(shè)立孔子學(xué)院,到2010年孔子學(xué)院將多達(dá)500所。同時(shí)有109個(gè)國(guó)家、3000多所高等學(xué)校開設(shè)了漢語(yǔ)課程。全世界學(xué)習(xí)漢語(yǔ)的人數(shù),已經(jīng)超過(guò)了4000萬(wàn)。美國(guó)3年前只有200所學(xué)校開漢語(yǔ)課,到現(xiàn)在已經(jīng)發(fā)展到1000多所,并提出了到2015年5%的高中生要學(xué)漢語(yǔ)的目標(biāo)。作為英語(yǔ)發(fā)源地的英國(guó),幾乎所有的大學(xué)都或多或少地開設(shè)了漢語(yǔ)課;開設(shè)漢語(yǔ)課程的中小學(xué)數(shù)量,已從2002年的57所增加到目前的近500所。

隨著南極長(zhǎng)城站、中山站、昆侖站和北極黃河站等科學(xué)考察站的相繼建立,漢字便同五星紅旗一起在冰天雪地,荒無(wú)人煙的極地落戶。從此,地球的每片土地上都生長(zhǎng)著漢字。

活字印刷讓漢字廣泛傳播。但漢字在科技世界的游刃有余,則是在新中國(guó)以后,尤其是改革開放的三十多年。1975年國(guó)家科技發(fā)展規(guī)劃748工程的啟動(dòng),推動(dòng)和產(chǎn)生了我們今天使用的漢字操作系統(tǒng)、漢字應(yīng)用軟件和各種漢字輸入輸出設(shè)備,徹底掃除了“中文不適于信息處理”的障礙。從1981年漢字激光照排系統(tǒng)樣機(jī)研制成功到后來(lái)的廣泛使用,我國(guó)的印刷出版業(yè)告別“鉛與火”、進(jìn)入“光與電”時(shí)代,漢字活力與日俱增。隨著漢字操作系統(tǒng)、漢字編輯排版系統(tǒng)、漢字識(shí)別系統(tǒng)、手寫漢字輸入系統(tǒng)、機(jī)器翻譯系統(tǒng)的不斷創(chuàng)新和換代,漢字在計(jì)算機(jī)的王國(guó)里進(jìn)出自由,沒有禁區(qū)。

查看全文