sogayaのプログラミング

コマンドユーザーズガイド、さらしの集計、トリシーカー、ロトサマリー

utf16sjisコマンド

utf16sjisコマンドをアップロードしました! utf16sjisコマンドは、UTF-16のファイルをいわゆるシフトJISのテキストファイルに変換します。UTF-16サロゲートペアを廃止して、代替文字として、たとえば、下線を使用できます。添付のsurroコマンドは、surro.csvを作成します。surro.csvに記入することで、利用者は、utf16sjisコマンドに新しい代替文字を提供できます。Windowsコマンドプロンプトは、シフトJISが多用されます。MS932は、名前の漢字が不十分であるため、名前に含まれた珍しい漢字を表現しにくい。UTF-8と同様に、UTF-16も、橋の名前、地名、人名、屋号など、名前に含まれた珍しい漢字を表現できます。utf16sjisのユーザーズガイドでは、UTF-16は、UTF-16LEを意味します。すなわち、BOM付きUTF-16のファイルの最初にFFh, FEhの2バイトがこの順に出現します。添付のutf8to16コマンドは、UTF-8のテキストファイルをUTF-16のファイルに変換します。BOM付き UTF-16のファイルがFFh, FEhで開始することをobotコマンドで確認できます。倉敷川にかかる石橋として、今橋、中橋があります。令和元年12月21日、今橋に行って撮影しました。今の異体字は、符号位置(コードポイント)は、2B746です。D86D, DF46がUTF-16のファイルに出現します。UTF-8UTF-16Unicodeの一種であるため、utf8to16コマンドは、まず符号位置を算出して、次に符号位置から計算してUTF-16の形式で出力します。変換表を使用しません。utf8to16コマンドは、サロゲートペアをサポートします。utf16sjisコマンドに、-o text.tmpというパラメータを付加することで、利用者は、自分で、新しいファイルをtext.tmpと命名できます。-o-で、-oを無効にすることができます。利用者は、自分で新しいファイルを命名しないため、utf16sjisコマンドは、新しいファイルとして、utf16sjis.txtを作成します。利用者が-o- -zを付加した場合、ファイル名が空文字になるため、utf16sjisコマンドは、標準出力にシフトJISのデータを書き出します。--outは、-o- -zと同じ結果を生じます。utf16sjisコマンドは、下記の順序で変換表を探索します。1. utf16sjisコマンドがインストールされたディレクトリ。2. カレントディレクトリ。3. 環境変数Pathに記載の各ディレクトリ。4. 設定ファイルの第1行に記載のパス名。インストールディレクトリ、カレントディレクトリ、Pathに記載の各ディレクトリに変換表があろうがなかろうが、設定ファイルの第1行からパス名を捕捉して、変換表を開くには、utf16sjisコマンドのパラメータとして、-aを付加してください。UTF16~MS932.binが削除されるおそれがあるなど、バックアップを目的として、事前に適当なディレクトリにUTF16~MS932.binのコピーを作成することを推奨しますが、コマンドプロンプトに入力するとき、何もパラメータが付加されていないutf16sjisコマンドは、MS932~UTF16.binからUTF16~MS932.binを生成できます。カレントディクトリにMS932~UTF16.binを用意してください。添付のsjisutf16コマンドは、MS932~UTF16.binにしたがって、シフトJISのテキストファイルをUTF-16のファイルに変換します。まずsjisutf16コマンドでシフトJISのテキストファイルであるGongitsune.txtをBOM付きUTF-16ファイルに変換して、次にutf16sjisコマンドでUTF-16ファイルをシフトJISテキストファイルに変換しました。結果のファイルをGon_Shift_JIS.txtと命名しました。Gon_Shift_JIS.txtは、内容がGongitsune.txtに一致しました。サイズも同一でした。utf16sjisコマンドは、surro.csvおよびUTF-16~MS932.binにしたがって、UTF-16のファイルをシフトJISのテキストファイルに変換します。下線( _ )は、シフトJISの2バイト文字に含まれています。テキストにサロゲートペアが出現した場合、utf16sjisコマンドは、サロゲートペアをたとえば下線に置換しますが、利用者は、シフトJISの2バイト文字から新しい代替文字を選択できます。添付のsurroコマンドは、surro.csvを作成します。surro.csvは、BOM付きのUTF-16ファイルです。1. 2000B, 20089, 200A2など十六進数でサロゲートペアの符号位置(コードポイント)を表現してください。2. surro.txtの各行に1個の十六進数を記入してください。3. surroコマンドで、surro.csvを作成してください。4. surro.csvの各行に新しい代替文字を記入してください。UTF16~MS932.binと異なり、surro.csvは、utf16sjisコマンドによって探索されません。カレントディレクトリでsurro.csvが発見されない場合、utf16sjisコマンドは、処理を中止します。自動的に、surro.csvを作成します。バックアップディレクトリからのコピーまたはsurroコマンドによって、カレントディレクトリにsurro.csvを用意してください。まずsurro.txtの各行に1個の十六進数を記入してください。surro.txtは、シフトJISのテキストファイルです。次にsurroコマンドで、surro.csvを作成してください。一般論として、ウェブブラウザでUTF-16のファイルを閲覧できます。surroコマンドは、カレントディレクトリでcut_here.htmlを開くことができた場合、surro.csv だけではなくsurro.htmlも作成します。カレントディレクトリでcut_here.htmlを開くことができない場合、surroコマンドは、surro.csvのみ作成して、正常に終了します。ウェブブラウザでHTMLを閲覧することで、表の作成および確認が可能です。同一のディレクトリにCut_here_style_UTF-16.cssおよびsurro.htmlの両方が必要です。Utf16sjis.pngも用意します。添付のcut_here.htmlから生成したsurro.htmlは、Windows XP Homeのパソコンで、Internet Explorer 7でも表示できます。添付のusortkコマンドは、サロゲートペアの表を記入したUTF-16ファイルの行を並べ替えることができます。詳細は、Utf16sjisユーザーズガイド(PDF)を参照してください。コマンドユーザーズガイドのウェブページでも説明しました。

f:id:sogaya:20200113172954j:plain

倉敷川にかかる今橋