文字コードの表現範囲内だが、文字の割り当てが存在しない符号をサーバに送りつけるとどう反応するのか、という問題

Shift_JISの1バイト目を7ビットに切り落とすと01h - 19h, 60h - 7Fhになり、2バイト目は40h - 7Eh (元から7ビット内), 00h - 7Chになる

JIS, EUC, SJIS の漢字コードについて unixuser.org/~euske/doc/kanjic

CL領域が出てきたら確実にShift_JISの符号、0x7Fが出てきたらShift_JISの1バイト目だ、ということは判るが、GL領域の文字だとUS-ASCIIの符号なのかShift_JISの符号なのか判らん

枝刈を考える際に7ビット空間に押し込めるから難しくなる....?

やはり何も考えずに7ビット空間を全走査するものを作って、それから枝刈した範囲をやった方が効率が良さそうだ (枝刈法を考えている間も演算させた方がいいというアレ)

@hadsn 枝刈りによる削減量はバカにならないと思うけどねえ。asciiから制御文字を抜くだけでも(3/4)^8倍まで減るわけだし

Follow

@204504bySE CLじゃなくてC0, CRじゃなくてC2領域だった、という訂正はさせていただきたいが、Shift_JIS文字列をぶち込む都合上、C0領域の探査は不可欠なのだ

Sign in to participate in the conversation
mstdn.jp

Mastodon日本鯖です. 【mstdn.jp / mastodon.cloud サービス譲渡のお知らせ】 mstdn.jp ならびに mastodon.cloud について、サービス終了のお知らせ以降、譲受希望のお問い合わせを複数いただきました。 その後の検討や準備などを進めた結果、当該サービスについて、6月30日をもってSujitech, LLC.へ譲渡することを決定いたしました。 よろしくお願いいたします。