レビュー・その他 技術・開発

【保存版】禁則処理の対象文字と文字コード一覧(UTF-8・Unicode・SJIS等)

2013年3月5日

テキストを読みやすく美しく配置するためのルール「禁則処理」。
プログラムでのテキスト処理やデザイン業務を行う際、対象となる文字の文字コードを把握しておくと非常に便利です。

Wikipediaの禁則処理一覧をベースに、個人的に気になった文字も追加して各文字コード(SJIS、EUC、JIS、Unicode、UTF-8)を一覧表にまとめました。システム開発やコーディングの参考にどうぞ。

1. 行頭禁則文字(行頭に置いてはいけない文字)

終わり括弧類

閉じ括弧などの記号は、行の先頭(一番左)に配置してはいけないルールになっています。

文字SJISEUCJISUnicodeUTF-8
,0x2C0x2C0x2C0x002C0x2C
)0x290x290x290x00290x29
]0x5D0x5D0x5D0x005D0x5D
0x81700xA1D10x21510xFF5D0xEFBD9D
0x81410xA1A20x21220x30010xE38081
0x816C0xA1CD0x214D0x30150xE38095
0x81720xA1D30x21530x30090xE38089
0x81740xA1D50x21550x300B0xE3808B
0x81760xA1D70x21570x300D0xE3808D
0x81780xA1D90x21590x300F0xE3808F
0x817A0xA1DB0x215B0x30110xE38091
—-—-—-0x30190xE38099
—-—-—-0x30170xE38097
0x87810xADE10x2D610x301F0xE3809F
0x81660xA1C70x21470x20190xE28099
0x81680xA1C90x21490x201D0xE2809D
—-—-—-0xFF600xEFBDA0
»—-—-—-0x00BB0xC2BB
0x81430xA1A40x21240xFF0c0xEFBC8C
0x816A0xA1CB0x214B0xFF090xEFBC89
0x816E0xA1CF0x214F0xFF3D0xEFBCBD

※太字部分(, ) ])は独自に追加した文字です。

行頭禁則和字(拗音・促音など)

小さな「ゃ」「っ」などの捨て仮名や、長音符(ー)も行頭への配置はNGとされています。Unicodeにはアイヌ語表記で使われる特殊な小文字(ㇰ、ㇲなど)も存在します。

文字SJISEUCJISUnicodeUTF-8
0x81520xA1B30x21330x30FD0xE383BD
0x81530xA1B40x21340x30FE0xE383BE
0x815B0xA1BC0x213C0x30FC0xE383BC
0x83400xA5A10x25210x30A10xE382A1
0x83420xA5A30x25230x30A30xE382A3
0x83440XA5A50x25250x30A50xE382A5
0x83460xA5A70x25270x30A70xE382A7
0x83480xA5A90x25290x30A90xE382A9
0x83620xA5C30x25430x30C30xE38383
0x83830xA5E30x25630x30E30xE383A3
0x83850xA5E50x25650x30E50xE383A5
0x83870xA5E70x25670x30E70xE383A7
0x838E0xA5EE0x256E0x30EE0xE383AE
0x83950xA5F50x25750x30F50xE383B5
0x83960xA5F60x25760x30F60xE383B6
0x829F0xA4A10x24210x30410xE38181
0x82A10xA4A30x24230x30430xE38183
0x82A30xA4A50x24250x30450xE38185
0x82A50xA4A70x24270x30470xE38187
0x82A70xA4A90x24290x30490xE38189
0x82C10xA4C30x24430x30630xE381A3
0x82E10xA4E30x24630x30830xE38283
0x82E30xA4E50x24650x30850xE38285
0x82E50xA4E70x24670x30870xE38287
0x82EC0xA4EE0x246E0x308E0xE3828E
—-—-—-0x30950xE38295
—-—-—-0x30960xE38296
—-—-—-0x31F00xE387B0
—-—-—-0x31F10xF387B1
—-—-—-0x31F20xE387B2
—-—-—-0x31F30xE387B3
—-—-—-0x31F40xE387B4
—-—-—-0x31F50xE387B5
—-—-—-0x31F60xE387B6
—-—-—-0x31F70xE387B7
—-—-—-0x31F80xE387B8
—-—-—-0x31F90xE387B9
—-—-—-0x31FA0xE387BA
—-—-—-0x31FB0xE387BB
—-—-—-0x31FC0xE387BC
—-—-—-0x31FD0xE387BD
—-—-—-0x31FE0xE387BE
—-—-—-0x31FF0xE387BF
0x81580xA1B90x21390x30050xE38085
—-—-—-0x303B0xE380BB

ハイフン類

ハイフン系も行頭表示は禁則処理の対象です。(波ダッシュ「〜」はありますが、全角チルダ「~」がWikipediaに載っていないのは不思議ですね)

文字SJISEUCJISUnicodeUTF-8
0x815D0xA1BE0x213E0x20100xE28090
—-—-—-0x30A00xE382A0
—-—-—-0x20130xE28093
—-0x8FA1C10x2141 / 0x02120x301C0xE3809C
-0x2D0x2D0x2D0x002D0x2D
0x815B0xA1BC0x213C0x30FC0xE383BC
0x81600xA1C10x21410xFF5E0xEFBD9E
=0x3D0x3D0x3D0x003D0x3D
0x81810xA1E10x21610xFF1D0xEFBC9D

太字部分(- ー ~ = =)は独自に追加した文字です。(「ー」は行頭禁則和字と重複)

区切り約物

疑問符(?)や感嘆符(!)なども、行の先頭には表示してはいけません。

文字SJISEUCJISUnicodeUTF-8
?0x3F0x3F0x3F0x003F0x3F
!0x210x210x210x00210x21
—-—-—-0x203C0xE280BC
—-—-—-0x20470x28187
—-—-—-0x20480xE28188
—-—-—-0x20490xE28189
0x81480xA1A90x21290xFF1F0xEFBC9F
0x91490xA1AA0x212A0xFF010xEFBC81

太字部分(? !)は独自に追加した文字です。

中点類

中点(・)やコロン(:)、セミコロン(;)も同様に行頭禁止です。

文字SJISEUCJISUnicodeUTF-8
0x81450xA1A60x21260x30FB0xE383BB
:0x3A0x3A0x3A0x003A0x3A
;0x3B0x3B0x3B0x003B0x3B
0x81460xA1A70x21270xFF1A0xEFBC9A
0x81470xA1A80x21280xFF1B0xEFBC9B

※太字部分(: ;)は独自に追加した文字です。

句点類

文章を終わらせる句点(。)やピリオド(.)は絶対に行頭に来てはいけません。

文字SJISEUCJISUnicodeUTF-8
0x81420xA1A30x21230x30020xE38082
.0x2E0x2E0x2E0x002E0x2E
0x81440xA1A50x21250xFF0E0xEFBC8E

※太字部分(.)は独自に追加した文字です。


2. 行末禁則文字(行末に置いてはいけない文字)

始め括弧類

開き括弧が行の最後(一番右)で終わってしまうと不自然になるため、次行への送り込み等が行われます。

文字SJISEUCJISUnicodeUTF-8
(0x280x280x280x00280x28
[0x5B0x5B0x5B0x005B0x5B
0x816F0xA1D00x21500xFF5B0xEFBD9B
0x816B0xA1CC0x214C0x30140xE38094
0x81710xA1D20x21520x30080xE38088
0x81730xA1D40x21540x300A0xE3808A
0x81750xA1D60x21560x300C0xE3808C
0x81770xA1D80x21580x300E0xE3808E
0x81790xA1DA0x215A0x30100xE38090
—-—-—-0x30180xE38098
—-—-—-0x30160xE38096
0x87800xADE00x2D600x301D0xE3809D
0x81650xA1C60x21460x20180xE28098
0x81670xA1C80x21480x201C0xE2809C
—-—-—-0xFF5F0xEFBD9F
«—-—-—-0x00AB0xC2AB
0x81690xA1CA0x214A0xFF080xEFBC88
0x816D0xA1CE0x214E0xFF3B0xEFBCBB

※太字部分(( [)は独自に追加した文字です。


3. 分離禁則(分割してはいけない文字)

分離禁止文字

リーダー(……)やダッシュ(――)など、同じ文字が2個以上つながって意味をなす場合、行またぎで泣き別れさせてはいけません。

文字SJISEUCJISUnicodeUTF-8
—-—-—-0x20140xE28094
0x81630xA1C40x21440x20260xE280A6
0x81640xA1C50x21450x20250xE280A5
—-—-—-0x30330xE380B3
—-—-—-0x30340xE380B4
—-—-—-0x30350xE380B5

-レビュー・その他, 技術・開発
-, , , , , , ,