六月婷婷综合激情-六月婷婷综合-六月婷婷在线观看-六月婷婷在线-亚洲黄色在线网站-亚洲黄色在线观看网站

明輝手游網(wǎng)中心:是一個免費(fèi)提供流行視頻軟件教程、在線學(xué)習(xí)分享的學(xué)習(xí)平臺!

Java 編程技術(shù)中漢字問題的區(qū)分及處理(轉(zhuǎn)自IBM)

[摘要]Java 編程技術(shù)中漢字問題的分析及解決段明輝自由撰稿人2000 年 11月 8日在基于 Java 語言的編程中,我們經(jīng)常碰到漢字的處理及顯示的問題。一大堆看不懂的亂碼肯定不是我們愿意看到的顯示效果...

Java 編程技術(shù)中漢字問題的分析及解決



段明輝
自由撰稿人
2000 年 11月 8日

在基于 Java 語言的編程中,我們經(jīng)常碰到漢字的處理及顯示的問題。一大堆看不懂的亂碼肯定不是我們愿意看到的顯示效果,怎樣才能夠讓那些漢字正確顯示呢?Java 語言默認(rèn)的編碼方式是UNICODE ,而我們中國人通常使用的文件和數(shù)據(jù)庫都是基于 GB2312 或者 BIG5 等方式編碼的,怎樣才能夠恰當(dāng)?shù)剡x擇漢字編碼方式并正確地處理漢字的編碼呢?本文將從漢字編碼的常識入手,結(jié)合 Java 編程實(shí)例,分析以上兩個問題并提出解決它們的方案。



現(xiàn)在 Java 編程語言已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng)世界,早在 Sun 公司開發(fā) Java 語言的時候,就已經(jīng)考慮到對非英文字符的支持了。Sun 公司公布的 Java 運(yùn)行環(huán)境(JRE)本身就分英文版和國際版,但只有國際版才支持非英文字符。不過在 Java 編程語言的應(yīng)用中,對中文字符的支持并非如同 Java Soft 的標(biāo)準(zhǔn)規(guī)范中所宣稱的那樣完美,因?yàn)橹形淖址恢灰粋,而且不同的操作系統(tǒng)對中文字符的支持也不盡相同,所以會有許多和漢字編碼處理有關(guān)的問題在我們進(jìn)行應(yīng)用開發(fā)中困擾著我們。有很多關(guān)于這些問題的解答,但都比較瑣碎,并不能夠滿足大家迫切解決問題的愿望,關(guān)于 Java 中文問題的系統(tǒng)研究并不多,本文從漢字編碼常識出發(fā),分析 Java 中文問題,希望對大家解決這個問題有所幫助。

漢字編碼的常識

我們知道,英文字符一般是以一個字節(jié)來表示的,最常用的編碼方法是 ASCII 。但一個字節(jié)最多只能區(qū)分256個字符,而漢字成千上萬,所以現(xiàn)在都以雙字節(jié)來表示漢字,為了能夠與英文字符分開,每個字節(jié)的最高位一定為1,這樣雙字節(jié)最多可以表示64K格字符。我們經(jīng)常碰到的編碼方式有 GB2312、BIG5、UNICODE 等。關(guān)于具體編碼方式的詳細(xì)資料,有興趣的讀者可以查閱相關(guān)資料。我膚淺談一下和我們關(guān)系密切的 GB2312 和 UNICODE。GB2312 碼,中華人民共和國國家標(biāo)準(zhǔn)漢字信息交換用編碼,是一個由中華人民共和國國家標(biāo)準(zhǔn)總局發(fā)布的關(guān)于簡化漢字的編碼,通行于中國大陸地區(qū)及新加坡,簡稱國標(biāo)碼。兩個字節(jié)中,第一個字節(jié)(高字節(jié))的值為區(qū)號值加32(20H),第二個字節(jié)(低字節(jié))的值為位號值加32(20H),用這兩個值來表示一個漢字的編碼。UNICODE 碼是微軟提出的解決多國字符問題的多字節(jié)等長編碼,它對英文字符采取前面加“0”字節(jié)的策略實(shí)現(xiàn)等長兼容。如 “A” 的 ASCII 碼為0x41,UNICODE 就為0x00,0x41。利用特殊的工具各種編碼之間可以互相轉(zhuǎn)換。

Java 中文問題的初步認(rèn)識

我們基于 Java 編程語言進(jìn)行應(yīng)用開發(fā)時,不可避免地要處理中文。Java 編程語言默認(rèn)的編碼方式是 UNICODE,而我們通常使用的數(shù)據(jù)庫及文件都是基于 GB2312 編碼的,我們經(jīng)常碰到這樣的情況:瀏覽基于 JSP 技術(shù)的網(wǎng)站看到的是亂碼,文件打開后看到的也是亂碼,被 Java 修改過的數(shù)據(jù)庫的內(nèi)容在別的場合應(yīng)用時無法繼續(xù)正確地提供信息。

String sEnglish = “apple”;

String sChinese = “蘋果”;

String s = “蘋果 apple ”;

sEnglish 的長度是5,sChinese的長度是4,而 s 默認(rèn)的長度是14。對于 sEnglish來說, Java 中的各個類都支持得非常好,肯定能夠正確顯示。但對于 sChinese 和 s 來說,雖然 Java Soft 聲明 Java 的基本類已經(jīng)考慮到對多國字符的支持(默認(rèn) UNICODE 編碼),但是如果操作系統(tǒng)的默認(rèn)編碼不是 UNICODE ,而是國標(biāo)碼等。從 Java 源代碼到得到正確的結(jié)果,要經(jīng)過 “Java 源代碼-> Java 字節(jié)碼-> ;虛擬機(jī)->操作系統(tǒng)->顯示設(shè)備”的過程。在上述過程中的每一步驟,我們都必須正確地處理漢字的編碼,才能夠使最終的顯示結(jié)果正確。

“ Java 源代碼-> Java 字節(jié)碼”,標(biāo)準(zhǔn)的 Java 編譯器 javac 使用的字符集是系統(tǒng)默認(rèn)的字符集,比如在中文 Windows 操作系統(tǒng)上就是 GBK ,而在 Linux 操作系統(tǒng)上就是ISO-8859-1,所以大家會發(fā)現(xiàn)在 Linux 操作系統(tǒng)上編譯的類中源文件中的中文字符都出了問題,解決的辦法就是在編譯的時候添加 encoding 參數(shù),這樣才能夠與平臺無關(guān)。用法是

javac –encoding GBK。

“ Java 字節(jié)碼->虛擬機(jī)->操作系統(tǒng)”, Java 運(yùn)行環(huán)境 (JRE) 分英文版和國際版,但只有國際版才支持非英文字符。 Java 開發(fā)工具包 (JDK) 肯定支持多國字符,但并非所有的計算機(jī)用戶都安裝了 JDK 。很多操作系統(tǒng)及應(yīng)用軟件為了能夠更好的支持 Java ,都內(nèi)嵌了 JRE 的國際版本,為自己支持多國字符提供了方便。

“操作系統(tǒng)->顯示設(shè)備”,對于漢字來說,操作系統(tǒng)必須支持并能夠顯示它。英文操作系統(tǒng)如果不搭配特殊的應(yīng)用軟件的話,是肯定不能夠顯示中文的。

還有一個問題,就是在 Java 編程過程中,對中文字符進(jìn)行正確的編碼轉(zhuǎn)換。例如,向網(wǎng)頁輸出中文字符串的時候,不論你是用

out.println(string); // string 是含中文的字符串

還是用

<%=string%>,都必須作 UNICODE 到 GBK 的轉(zhuǎn)換,或者手動,或者自動。在 JSP 1.0中,可以定義輸出字符集,從而實(shí)現(xiàn)內(nèi)碼的自動轉(zhuǎn)換。用法是

<%@page ContentType=”text/html;charset=gb2312” %>

但是在一些 JSP 版本中并沒有提供對輸出字符集的支持,(例如 JSP 0.92),這就需要手動編碼輸出了,方法非常多。最常用的方法是

String s1 = request.getParameter(“keyword”);

String s2 = new String(s1.getBytes(“ISO-8859-1”),”GBK”);

getBytes 方法用于將中文字符以“ISO-8859-1”編碼方式轉(zhuǎn)化成字節(jié)數(shù)組,而“GBK” 是目標(biāo)編碼方式。我們從以ISO-8859-1方式編碼的數(shù)據(jù)庫中讀出中文字符串 s1 ,經(jīng)過上述轉(zhuǎn)換過程,在支持 GBK 字符集的操作系統(tǒng)和應(yīng)用軟件中就能夠正確顯示中文字符串 s2 。

Java 中文問題的表層分析及處理

背景

開發(fā)環(huán)境
JDK1.15
Vcafe2.0
JPadPro

服務(wù)器端
NT IIS
Sybase System
Jconnect(JDBC)

客戶端
IE5.0
Pwin98
 


.CLASS 文件存放在服務(wù)器端,由客戶端的瀏覽器運(yùn)行 APPLET , APPLET 只起調(diào)入 FRAME 類等主程序的作用。界面包括 Textfield ,TextArea,List,Choice 等。

I. 取中文

用 JDBC 執(zhí)行 SELECT 語句從服務(wù)器端讀取數(shù)據(jù)(中文)后,將數(shù)據(jù)用 APPEND 方法加到 TextArea(TA) ,不能正確顯示。但加到 List 中時,大部分漢字卻可正確顯示。

將數(shù)據(jù)按“ISO-8859-1” 編碼方式轉(zhuǎn)化為字節(jié)數(shù)組,再按系統(tǒng)缺省編碼方式 (Default Character Encoding) 轉(zhuǎn)化為 STRING ,即可在 TA 和 List 中正確顯示。

程序段如下:

dbstr2 = results.getString(1);

//After reading the result from DB server,converting it to string.

dbbyte1 = dbstr2.getBytes(“iso-8859-1”);

dbstr1 = new String(dbbyte1);

在轉(zhuǎn)換字符串時不采用系統(tǒng)默認(rèn)編碼方式,而直接采用“ GBK” 或者 “GB2312” ,在 A 和 B 兩種情況下,從數(shù)據(jù)庫取數(shù)據(jù)都沒有問題。

II.寫中文到數(shù)據(jù)庫

處理方式與“取中文”相逆,先將 SQL 語句按系統(tǒng)缺省編碼方式轉(zhuǎn)化為字節(jié)數(shù)組,再按“ISO-8859-1”編碼方式轉(zhuǎn)化為 STRING ,最后送去執(zhí)行,則中文信息可正確寫入數(shù)據(jù)庫。

程序段如下:

sqlstmt = tf_input.getText();

//Before sending statement to DB server,converting it to sql statement.

dbbyte1 = sqlstmt.getBytes();

sqlstmt = newString(dbbyte1,”iso-8859-1”);

_stmt = _con.createStatement();

_stmt.executeUpdate(sqlstmt);

……

問題:如果客戶機(jī)上存在 CLASSPATH 指向 JDK 的 CLASSES.ZIP 時(稱為 A 情況),上述程序代碼可正確執(zhí)行。但是如果客戶機(jī)只有瀏覽器,而沒有 JDK 和 CLASSPATH 時(稱為 B 情況),則漢字無法正確轉(zhuǎn)換。

我們的分析:

1.經(jīng)過測試,在 A 情況下,程序運(yùn)行時系統(tǒng)的缺省編碼方式為 GBK 或者 GB2312 。在 B 情況下,程序啟動時瀏覽器的 JAVA 控制臺中出現(xiàn)如下錯誤信息:

Can't find resource for sun.awt.windows.awtLocalization_zh_CN

然后系統(tǒng)的缺省編碼方式為“8859-1”。

2.如果在轉(zhuǎn)換字符串時不采用系統(tǒng)缺省編碼方式,而是直接采用 “GBK” 或“GB2312”,則在 A 情況下程序仍然可正常運(yùn)行,在 B 情況下,系統(tǒng)出現(xiàn)錯誤:

UnsupportedEncodingException。

3.在客戶機(jī)上,把 JDK 的 CLASSES.ZIP 解壓后,放在另一個目錄中, CLASSPATH 只包含該目錄。然后一邊逐步刪除該目錄中的 .CLASS 文件,另一邊運(yùn)行測試程序,最后發(fā)現(xiàn)在一千多個 CLASS 文件中,只有一個是必不可少的,該文件是:

sun.io.CharToByteDoubleByte.class。

將該文件拷到服務(wù)器端和其它的類放在一起,并在程序的開頭 IMPORT 它,在 B 情況下程序仍然無法正常運(yùn)行。

4.在 A 情況下,如果在 CLASSPTH 中去掉 sun.io.CharToByteDoubleByte.class ,則程序運(yùn)行時測得默認(rèn)編碼方式為“8859-1”,否則為 “GBK” 或 “GB2312” 。

如果 JDK 的版本為1.2以上的話,在 B 情況下遇到的問題得到了很好的解決,測試的步驟同上,有興趣的讀者可以嘗試一下。

[/b]Java 中文問題的根源分析及解決[/b]

在簡體中文 MS Windows 98 + JDK 1.3 下,可以用 System.getProperties() 得到 Java 運(yùn)行環(huán)境的一些基本屬性,類 PoorChinese 可以幫助我們得到這些屬性。

類 PoorChinese 的源代碼:

public class PoorChinese {

 public static void main(String[] args) {

 System.getProperties().list(System.out);

 }

}

執(zhí)行 java PoorChinese 后,我們會得到:

系統(tǒng)變量 file.encoding 的值為 GBK ,user.language 的值為 zh , user.region 的值為 CN ,這些系統(tǒng)變量的值決定了系統(tǒng)默認(rèn)的編碼方式是 GBK 。

在上述系統(tǒng)中,下面的代碼將 GB2312 文件轉(zhuǎn)換成 Big5 文件,它們能夠幫助我們理解 Java 中漢字編碼的轉(zhuǎn)化:



import java.io.*;

import java.util.*;



public class gb2big5 {



static int iCharNum=0;



public static void main(String[] args) {

System.out.println("Input GB2312 file, output Big5 file.");

if (args.length!=2) {

System.err.println("Usage: jview gb2big5 gbfile big5file");

System.exit(1);

 }

String inputString = readInput(args[0]);

writeOutput(inputString,args[1]);

System.out.println("Number of Characters in file: "+iCharNum+".");

}



static void writeOutput(String str, String strOutFile) {

try {

FileOutputStream fos = new FileOutputStream(strOutFile);

Writer out = new OutputStreamWriter(fos, "Big5");

out.write(str);

out.close();

}

catch (IOException e) {

e.printStackTrace();

e.printStackTrace();

}

}



static String readInput(String strInFile) {

StringBuffer buffer = new StringBuffer();

try {

FileInputStream fis = new FileInputStream(strInFile);

InputStreamReader isr = new InputStreamReader(fis, "GB2312");

Reader in = new BufferedReader(isr);

int ch;

while ((ch = in.read()) > -1) {

iCharNum += 1;

buffer.append((char)ch);

}

in.close();

return buffer.toString();

}

catch (IOException e) {

e.printStackTrace();

return null;

}

}

}



編碼轉(zhuǎn)化的過程如下:

 ByteToCharGB2312 CharToByteBig5

GB2312------------------>Unicode------------->Big5

執(zhí)行 java gb2big5 gb.txt big5.txt ,如果 gb.txt 的內(nèi)容是“今天星期三”,則得到的文件 big5.txt 中的字符能夠正確顯示;而如果 gb.txt 的內(nèi)容是“情人節(jié)快樂”,則得到的文件 big5.txt 中對應(yīng)于“節(jié)”和“樂”的字符都是符號“?”(0x3F),可見 sun.io.ByteToCharGB2312 和 sun.io.CharToByteBig5 這兩個基本類并沒有編好。

正如上例一樣, Java 的基本類也可能存在問題。由于國際化的工作并不是在國內(nèi)完成的,所以在這些基本類發(fā)布之前,沒有經(jīng)過嚴(yán)格的測試,所以對中文字符的支持并不像 Java Soft 所聲稱的那樣完美。前不久,我的一位技術(shù)上的朋友發(fā)信給我說,他終于找到了 Java Servlet 中文問題的根源。兩周以來,他一直為 Java Servlet 的中文問題所困擾,因?yàn)槊棵鎸σ粋含有中文字符的字符串都必須進(jìn)行強(qiáng)制轉(zhuǎn)換才能夠得到正確的結(jié)果(這好象是大家公認(rèn)的唯一的解決辦法)。后來,他確實(shí)不想如此繼續(xù)安分下去了,因?yàn)檫@樣的事情確實(shí)不應(yīng)該是高級程序員所要做的工作,他就找出 Servlet 解碼的源代碼進(jìn)行分析,因?yàn)樗麘岩蓡栴}就出在解碼這部分。經(jīng)過四個小時的奮斗,他終于找到了問題的根源所在。原來他的懷疑是正確的, Servlet 的解碼部分完全沒有考慮雙字節(jié),直接把 %XX 當(dāng)作一個字符。(原來 Java Soft 也會犯這幺低級的錯誤!)

如果你對這個問題有興趣或者遇到了同樣的煩惱的話,你可以按照他的步驟對 Servlet.jar 進(jìn)行修改:

找到源代碼 HttpUtils 中的 static private String parseName ,在返回前將 sb(StringBuffer) 復(fù)制成 byte bs[] ,然后 return new String(bs,”GB2312”)。作上述修改后就需要自己解碼了:

HashTable form=HttpUtils .parseQueryString(request.getQueryString())或者

form=HttpUtils.parsePostData(……)

千萬別忘了編譯后放到 Servlet.jar 里面。

五、 關(guān)于 Java 中文問題的總結(jié)

Java 編程語言成長于網(wǎng)絡(luò)世界,這就要求 Java 對多國字符有很好的支持。 Java 編程語言適應(yīng)了計算的網(wǎng)絡(luò)化的需求,為它能夠在網(wǎng)絡(luò)世界迅速成長奠定了堅實(shí)的基礎(chǔ)。 Java 的締造者 (Java Soft) 已經(jīng)考慮到 Java 編程語言對多國字符的支持,只是現(xiàn)在的解決方案有很多缺陷在里面,需要我們付諸一些補(bǔ)償性的措施。而世界標(biāo)準(zhǔn)化組織也在努力把人類所有的文字統(tǒng)一在一種編碼之中,其中一種方案是 ISO10646 ,它用四個字節(jié)來表示一個字符。當(dāng)然,在這種方案未被采用之前,還是希望 Java Soft 能夠嚴(yán)格地測試它的產(chǎn)品,為用戶帶來更多的方便。

附一個用于從數(shù)據(jù)庫和網(wǎng)絡(luò)中取出中文亂碼的處理函數(shù),入?yún)⑹怯袉栴}的字符串,出參是問題已經(jīng)解決了的字符串。

String parseChinese(String in)

{

String s = null;

byte temp [];

if (in == null)

{

System.out.println("Warn:Chinese null founded!");

return new String("");

}

try

{

temp=in.getBytes("iso-8859-1");

temp=in.getBytes("iso-8859-1");

s = new String(temp);

}

{

System.out.println("Warn:Chinese null founded!");

return new String("");

}

try

{

temp=in.getBytes("iso-8859-1");

s = new String(temp);

}

catch(UnsupportedEncodingException e)

{

System.out.println (e.toString());

}

return s;

}



作者簡介

段明輝,清華大學(xué)電子工程系學(xué)生
現(xiàn)在正在清華大學(xué)微電子學(xué)研究所從事 Java 智能卡微處理器的研究和開發(fā)
領(lǐng)導(dǎo) BBS 水木清華站的 Java 討論組,為眾多 Java 技術(shù)應(yīng)用者提供解決方案




主站蜘蛛池模板: 午夜视频福利在线 | 视频一区二区中文字幕 | 色综合久久综合欧美综合图片 | 天天操天天射天天色 | 星辰影院在线观看高清免费观看 | 青青干视频 | 欧美特黄三级成人 | 性喷潮久久久久久久久 | 日本免费一区二区三区a区 日本免费一二三区 | 日本一道在线观看 | 五月婷婷六月丁香激情 | 色综合久久88色综合天天小说 | 青娱乐中文字幕 | 日本高清免费一本视频无需下载 | 亚洲视频日韩视频 | 四虎精品国产一区二区三区 | 午夜在线视频 | 亚洲处破女网站 | 四虎影视免费永久在线观看黄 | 在线播放日本爽快片 | 亚洲永久免费网站 | 日日日天天射天天干视频 | 午夜不卡在线 | 亚洲va久久久噜噜噜久久天堂 | 亚洲欧美综合一区二区三区四区 | 亚洲欧美日韩激情在线观看 | 亚洲国产高清视频在线观看 | 伊人福利在线 | 亚洲视频在线免费看 | 色偷偷亚洲女性天堂 | 最新版天堂资源中文官网 | 影音先锋精品国产资源 | 中文字幕一区在线观看 | 三级精品视频在线播放 | 探花视频免费观看高清 | 色综合中文字幕 | 日本免费久久 | 怡春院日本一区二区久久 | 日日摸日日添夜夜爽97 | 情侣视频精品免费的国产 | 在线免费视频你懂的 |