用PHP編程讀取漢字點(diǎn)陣數(shù)據(jù)
背景知識(shí):
簡體中文國標(biāo)字庫(1981年訂,中國大陸)。7445個(gè)字符,其中漢字6773個(gè),包括一級漢字3755個(gè),二級漢字3008個(gè)。采用2字節(jié)(16位二進(jìn)制)編碼。
區(qū)位碼:國標(biāo)GB2312規(guī)定,所有的國標(biāo)漢字與符號組成一個(gè)94×94的矩陣。在此方陣中,每一行稱為一個(gè)”區(qū)”,每一列稱為一個(gè)”位”,因此,這個(gè)方陣實(shí)際上組成了一個(gè)有94個(gè)區(qū)(區(qū)號分別為0 1到94)、每個(gè)區(qū)內(nèi)有94個(gè)位(位號分別為01到94)的漢字字符集。一個(gè)漢字所在的區(qū)號和位號簡單地組合在一起就構(gòu)成了該漢字的”區(qū)位碼”。在漢字的區(qū)位碼中,高兩位為區(qū)號,低兩位為位號。由此可見,區(qū)位碼與漢字或符號之間是一一對應(yīng)的。
內(nèi)碼:漢字的內(nèi)碼是指在計(jì)算機(jī)中表示漢字的編碼。機(jī)內(nèi)碼與區(qū)位碼稍有區(qū)別。為什么不直接用區(qū)位碼作為計(jì)算機(jī)內(nèi)的編碼呢? 這是因?yàn)闈h字的區(qū)碼和位碼的范圍都在1到94內(nèi), 如果直接用區(qū)位碼作機(jī)內(nèi)碼, 就會(huì)與基本ASCII碼沖突。 漢字的內(nèi)碼通常與所使用的計(jì)算機(jī)系統(tǒng)有關(guān)。目前,對于國內(nèi)大多數(shù)的計(jì)算機(jī)系統(tǒng),一個(gè)漢字的內(nèi)碼占兩個(gè)字節(jié),分別稱為高位字節(jié)與低位字節(jié),且這兩位字節(jié)與區(qū)位碼的關(guān)系如下: 內(nèi)碼高位=區(qū)碼+A0H(H表示十六進(jìn)制) 內(nèi)碼低位=位碼+A0H 例如,漢字”啊”的區(qū)位碼為”1601″,區(qū)碼和位碼分別用十六進(jìn)制表示即為”1001H”,則它的內(nèi)碼為”B0A1H”。其中B0H為內(nèi)碼的高位字節(jié),A1H為內(nèi)碼的低位字節(jié)。
php代碼:返回由0和1組成的字符串。
<?php/*** 讀取漢字點(diǎn)陣數(shù)據(jù)** @author legend <[email protected]>* @link http://www.ugia.cn/?p=82* @Copyright www.ugia.cn*/
$str = '中華人民共和國' ;
$font_file_name = 'simsun12.fon' ; // 點(diǎn)陣字庫文件名$font_width = 12 ; // 單字寬度$font_height = 12 ; // 單字高度$start_offset = 0 ; // 偏移
$fp = fopen ( $font_file_name , 'rb' );
$offset_size = $font_width * $font_height / 8 ;$string_size = $font_width * $font_height ;$dot_string = '' ;
for ( $i = 0 ; $i < strlen ( $str ); $i ++){ if ( ord ( $str { $i }) > 160 ) {// 先求區(qū)位碼,然后再計(jì)算其在區(qū)位碼二維表中的位置,進(jìn)而得出此字符在文件中的偏移$offset = (( ord ( $str { $i }) - 0xa1 ) * 94 + ord ( $str { $i + 1 }) - 0xa1 ) * $offset_size ;$i ++; } else {$offset = ( ord ( $str { $i }) + 156 - 1 ) * $offset_size ; }
// 讀取其點(diǎn)陣數(shù)據(jù) fseek ( $fp , $start_offset + $offset , SEEK_SET ); $bindot = fread ( $fp , $offset_size );
for ( $j = 0 ; $j < $offset_size ; $j ++) {// 將二進(jìn)制點(diǎn)陣數(shù)據(jù)轉(zhuǎn)化為字符串$dot_string .= sprintf ( '%08b' , ord ( $bindot { $j })); }}
fclose ( $fp );
echo $dot_string ;?>;
其中包括兩個(gè)點(diǎn)陣字體文件:一個(gè)為16×16的chs16.fon,另一個(gè)為12×12的simsun12.fon,偏移均為零。
