かえでBlog

色々なことを徒然と……

禁則処理…文字コード一覧

      2015/05/18

wikipediaの禁則処理の文字列の文字コードを調べてみました。

参考にどうぞ。

行頭文字

終わり括弧類

カッコ文字が行の最初に表示したらダメですよってことですね。

文字 SJIS EUC JIS Unicode UTF-8
,  0x2C  0x2C  0x2C  0x002C  0x2C
)  0x29  0x29  0x29  0x0029  0x29
]  0x5D  0x5D  0x5D  0x005D  0x5D
 0x8170  0xA1D1  0x2151  0xFF5D  0xEFBD9D
 0x8141  0xA1A2  0x2122  0x3001  0xE38081
 0x816C  0xA1CD  0x214D  0x3015  0xE38095
 0x8172  0xA1D3  0x2153  0x3009  0xE38089
 0x8174  0xA1D5  0x2155  0x300B  0xE3808B
 0x8176  0xA1D7  0x2157  0x300D  0xE3808D
 0x8178  0xA1D9  0x2159  0x300F  0xE3808F
 0x817A  0xA1DB  0x215B  0x3011  0xE38091
 ----  ----  ----  0x3019  0xE38099
 ----  ----  ----  0x3017  0xE38097
 0x8781  0xADE1  0x2D61  0x301F  0xE3809F
'  0x8166  0xA1C7  0x2147  0x2019  0xE28099
"  0x8168  0xA1C9  0x2149  0x201D  0xE2809D
 ----  ----  ----  0xFF60  0xEFBDA0
»  ----  ----  ----  0x00BB  0xC2BB
ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 ,  0x8143  0xA1A4  0x2124  0xFF0c  0xEFBC8C
 )  0x816A  0xA1CB  0x214B  0xFF09  0xEFBC89
 ]  0x816E  0xA1CF  0x214F  0xFF3D  0xEFBCBD

行頭禁則和字

表示だけだとわかりにくいですが、主に小さい文字(「ちゃ」の「ゃ」等)が行の最初に表示したらダメですよってことです。
Unicodeになるとㇰとかㇲもあるんですね……知りませんでした。

文字 SJIS EUC JIS Unicode UTF-8
 ヽ  0x8152  0xA1B3  0x2133  0x30FD  0xE383BD
 ヾ  0x8153  0xA1B4  0x2134  0x30FE  0xE383BE
 ー  0x815B  0xA1BC  0x213C  0x30FC  0xE383BC
 ァ  0x8340  0xA5A1  0x2521  0x30A1  0xE382A1
 ィ  0x8342  0xA5A3  0x2523  0x30A3  0xE382A3
 ゥ  0x8344  0XA5A5  0x2525  0x30A5  0xE382A5
 ェ  0x8346  0xA5A7  0x2527  0x30A7  0xE382A7
 ォ  0x8348  0xA5A9  0x2529  0x30A9  0xE382A9
 ッ  0x8362  0xA5C3  0x2543  0x30C3  0xE38383
 ャ  0x8383  0xA5E3  0x2563  0x30E3  0xE383A3
 ュ  0x8385  0xA5E5  0x2565  0x30E5  0xE383A5
 ョ  0x8387  0xA5E7  0x2567  0x30E7  0xE383A7
 ヮ  0x838E  0xA5EE  0x256E  0x30EE  0xE383AE
 ヵ  0x8395  0xA5F5  0x2575  0x30F5  0xE383B5
 ヶ  0x8396  0xA5F6  0x2576  0x30F6  0xE383B6
 ぁ  0x829F  0xA4A1  0x2421  0x3041  0xE38181
 ぃ  0x82A1  0xA4A3  0x2423  0x3043  0xE38183
 ぅ  0x82A3  0xA4A5  0x2425  0x3045  0xE38185
 ぇ  0x82A5  0xA4A7  0x2427  0x3047  0xE38187
 ぉ  0x82A7  0xA4A9  0x2429  0x3049  0xE38189
 っ  0x82C1  0xA4C3  0x2443  0x3063  0xE381A3
 ゃ  0x82E1  0xA4E3  0x2463  0x3083  0xE38283
 ゅ  0x82E3  0xA4E5  0x2465  0x3085  0xE38285
 ょ  0x82E5  0xA4E7  0x2467  0x3087  0xE38287
 ゎ  0x82EC  0xA4EE  0x246E  0x308E  0xE3828E
 ゕ  ----  ----  ----  0x3095  0xE38295
 ゖ  ----  ----  ----  0x3096  0xE38296
 ㇰ  ----  ----  ----  0x31F0  0xE387B0
 ㇱ  ----  ----  ----  0x31F1  0xF387B1
 ㇲ  ----  ----  ----  0x31F2  0xE387B2
 ㇳ  ----  ----  ----  0x31F3  0xE387B3
 ㇴ  ----  ----  ----  0x31F4  0xE387B4
 ㇵ  ----  ----  ----  0x31F5  0xE387B5
 ㇶ  ----  ----  ----  0x31F6  0xE387B6
 ㇷ  ----  ----  ----  0x31F7  0xE387B7
 ㇸ  ----  ----  ----  0x31F8  0xE387B8
 ㇹ  ----  ----  ----  0x31F9  0xE387B9
 ㇺ  ----  ----  ----  0x31FA  0xE387BA
 ㇻ  ----  ----  ----  0x31FB  0xE387BB
 ㇼ  ----  ----  ----  0x31FC  0xE387BC
 ㇽ  ----  ----  ----  0x31FD  0xE387BD
 ㇾ  ----  ----  ----  0x31FE  0xE387BE
 ㇿ  ----  ----  ----  0x31FF  0xE387BF
 々  0x8158  0xA1B9  0x2139  0x3005  0xE38085
 〻  ----  ----  ----  0x303B  0xE380BB

ハイフン類

=や-ってのハイフン系は行の最初に表示したらダメだそうです。「〜」はあるんですが「~」がないのは不思議です。

文字 SJIS EUC JIS Unicode UTF-8
 ‐  0x815D  0xA1BE  0x213E  0x2010  0xE28090
 ゠  ----  ----  ----  0x30A0  0xE382A0
 –  ----  ----  ----  0x2013  0xE28093
 〜  ----  0x8FA1C1

 0x2141

 0x0212
(JIS X)

 0x301C  0xE3809C
 ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 -  0x2D  0x2D  0x2D  0x002D  0x2D
 ー  0x815B  0xA1BC  0x213C  0x30FC  0xE383BC
 ※行頭禁則和字に記載
 ~  0x8160  0xA1C1  0x2141  0xFF5E  0xEFBD9E
 =  0x3D  0x3D  0x3D  0x003D  0x3D
 =  0x8181  0xA1E1  0x2161  0xFF1D  0xEFBC9D

区切り約物

疑問符・感嘆符も行の最初に表示してはいけないそうです。

文字 SJIS EUC JIS Unicode UTF-8
 ?  0x3F  0x3F  0x3F  0x003F  0x3F
 !  0x21  0x21  0x21  0x0021  0x21
 ‼  ----  ----  ----  0x203C  0xE280BC
 ⁇  ----  ----  ----  0x2047  0x28187
 ⁈  ----  ----  ----  0x2048  0xE28188
 ⁉  ----  ----  ----  0x2049  0xE28189
 ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 ?  0x8148  0xA1A9  0x2129  0xFF1F  0xEFBC9F
 !  0x9149  0xA1AA  0x212A  0xFF01  0xEFBC81

中点類

句読点(「・」等)は行はじめに表示してはいけないそうです。

文字 SJIS EUC JIS Unicode UTF-8
 ・  0x8145  0xA1A6  0x2126  0x30FB  0xE383BB
 :  0x3A  0x3A  0x3A  0x003A  0x3A
 ;  0x3B  0x3B  0x3B  0x003B  0x3B
 ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 :  0x8146  0xA1A7  0x2127  0xFF1A  0xEFBC9A
 ;  0x8147  0xA1A8  0x2128  0xFF1B  0xEFBC9B

句点類

句読点(「。」等)は行はじめに表示してはいけないそうです。

文字 SJIS EUC JIS Unicode UTF-8
 0x8142  0xA1A3  0x2123  0x3002  0xE38082
.  0x2E  0x2E  0x2E  0x002E  0x2E
 ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 0x8144  0xA1A5  0x2125  0xFF0E  0xEFBC8E

行末禁則文字

始め括弧類

行末に始め括弧は表示してはいけないそうです。

文字 SJIS EUC JIS Unicode UTF-8
 (  0x28  0x28  0x28  0x0028  0x28
 [  0x5B  0x5B  0x5B  0x005B  0x5B
 {  0x816F  0xA1D0  0x2150  0xFF5B  0xEFBD9B
 〔  0x816B  0xA1CC  0x214C  0x3014  0xE38094
 〈  0x8171  0xA1D2  0x2152  0x3008  0xE38088
 《  0x8173  0xA1D4  0x2154  0x300A  0xE3808A
 「  0x8175  0xA1D6  0x2156  0x300C  0xE3808C
 『  0x8177  0xA1D8  0x2158  0x300E  0xE3808E
 【  0x8179  0xA1DA  0x215A  0x3010  0xE38090
 〘  ----  ----  ----  0x3018  0xE38098
 〖  ----  ----  ----  0x3016  0xE38096
 〝  0x8780  0xADE0  0x2D60  0x301D  0xE3809D
 '  0x8165  0xA1C6  0x2146  0x2018  0xE28098
 "  0x8167  0xA1C8  0x2148  0x201C  0xE2809C
 ⦅  ----  ----  ----  0xFF5F  0xEFBD9F
 «  ----  ----  ----  0x00AB  0xC2AB
 ここから下はwikipediaに掲載されていませんが、気になったので追加表示してます。
 (  0x8169  0xA1CA  0x214A  0xFF08  0xEFBC88
 [  0x816D  0xA1CE  0x214E  0xFF3B  0xEFBCBB

分離禁則

分離禁止文字

(「……」等)同じ文字が2個つながっている場合、泣き別れしたらいけないそうです。

文字 SJIS EUC JIS Unicode UTF-8
 —  ----  ----  ----  0x2014  0xE28094
 …  0x8163  0xA1C4  0x2144  0x2026  0xE280A6
 ‥  0x8164  0xA1C5  0x2145  0x2025  0xE280A5
 〳  ----  ----  ----  0x3033  0xE380B3
 〴  ----  ----  ----  0x3034  0xE380B4
 〵  ----  ----  ----  0x3035  0xE380B5

 - 備忘録 , , , , , ,