ASCII、UTF-8、ISO-8859…あなたはこれらの奇妙なモニカがあちこちに浮かんでいるのを見たことがあるかもしれませんが、それらは実際にどういう意味ですか?文字エンコーディングとは何か、そしてこれらの頭字語が画面に表示されるプレーンテキストとどのように関連しているのかを説明しながら読んでください。. 基本ビルディングブロック 私たちが書いた言語について話すとき、私たちは文字が単語の構成要素であることについて話します。そして、それはそれから文、段落などを構築します。文字は音を表す記号です。あなたが言語について話すとき、あなたは一緒になってある種の意味を形成する音のグループについて話しています。各言語システムには、それらの意味を左右する一連の複雑な規則と定義があります。あなたが言葉を持っているならば、それがあなたがそれがどの言語に由来するかを知らず、そしてあなたがその言語を話す他の人たちと一緒にそれを使うのでなければ無用です. (Grantha、Tulu、およびMalayalamスクリプトの比較、ウィキペディアからの画像) コンピュータの世界では、「文字」という用語を使用します。文字は、特定のパラメータによって定義される一種の抽象的な概念ですが、それは意味の基本単位です。ラテン語の「A」は、ギリシャ語の「alpha」やアラビア語の「alif」とは異なります。文脈が異なり、言語が異なり、発音もわずかに異なるためです。したがって、これらは異なる文字であると言えます。文字の視覚的表現は「グリフ」と呼ばれ、グリフのさまざまなセットはフォントと呼ばれます。文字のグループは、「セット」または「レパートリー」に属します。 段落を入力してフォントを変更しても、文字の音声値は変更されず、外観が変わります。それは単なる化粧品です(しかし重要ではありません!)。古代エジプト語や中国語などの一部の言語には表意文字があります。これらは音ではなくアイデア全体を表しており、その発音は時間と距離によって変化します。ある文字を別の文字に置き換えると、アイデアが変わります。文字を変えるだけでなく、表意文字を変えることができます. 文字コード (ウィキペディアからの画像) キーボードで何かを入力したり、ファイルをロードしたりすると、コンピュータは表示するものをどのように認識しますか?それが文字エンコーディングの目的です。あなたのコンピュータ上のテキストは実際には文字ではなく、それは一連の対になった英数字の値です。文字エンコーディングは、正字法がどの音がどの文字に対応するかを決定する方法と同じように、どの値がどの文字に対応するかのキーとして機能します。モールス符号は一種の文字エンコーディングです。ビープ音のような長い単位と短い単位のグループが文字を表す方法について説明します。モールス符号では、文字は英語の文字、数字、およびフルストップです。文字、数字、アクセント記号、句読点、国際記号などに変換されるコンピュータ文字エンコーディングは数多くあります。. このトピックでは、しばしば「コードページ」という用語も使用されます。それらは本質的に特定の会社によって使用されるような文字エンコーディングであり、しばしばわずかな修正を伴います。たとえば、Windows 1252コードページ(以前はANSI 1252と呼ばれていました)は、ISO-8859-1の修正版です。これらは主に、同じシステムに固有の標準文字エンコーディングと修正文字エンコーディングを指すための内部システムとして使用されています。コンピュータが互いに通信しないので、初期の段階では、文字エンコードはそれほど重要ではありませんでした。インターネットが目立つようになり、ネットワーキングが一般的に行われるようになると、それを認識することなく、日常生活の中でますます重要になっています。. さまざまな種類 (sarah sosiakからの画像) そこにたくさんの異なる文字エンコーディングがあります、そしてそれにはたくさんの理由があります。どの文字エンコーディングを使用するかは、ニーズによって異なります。ロシア語でコミュニケーションをとるなら、キリル文字をうまくサポートする文字エンコーディングを使うのは理にかなっています。韓国語でコミュニケーションをとるなら、ハングルとハンジャをよく表すものが欲しいでしょう。あなたが数学者であれば、すべての科学的および数学的記号、ギリシャ語およびラテン語のグリフをうまく表現したものが必要です。あなたがいたずら者であれば、多分あなたは逆さまのテキストから利益を得るでしょう。また、これらの種類の文書すべてを特定の人が閲覧できるようにするには、かなり一般的で簡単にアクセスできるエンコーディングが必要です。. もっと一般的なものを見てみましょう。. (ASCIIテーブルの抜粋、asciitable.comからの画像) ASCII - 情報交換用のアメリカ標準コードは、より古い文字コードの1つです。もともとは電信コードに基づいて考案され、より多くの記号や現在は時代遅れのいくつかの印刷されていない制御文字を含むように進化しました。アクセント文字のないラテンアルファベットに限定されているので、それはおそらくあなたが現代のシステムに関して得ることができるのと同じくらい基本的です。 7ビットエンコーディングでは128文字しか使用できないため、世界中で非公式の亜種がいくつか使用されています。. ISO-8859 - 国際標準化機構の最も広く使用されている文字エンコーディングのグループは番号8859である。各特定のエンコーディングは番号で指定され、しばしば説明的なモニカー、例えばISO-8859-3(Latin-3)、ISO-8859-6(Latin / Arabic)。これはASCIIのスーパーセットです。つまり、エンコードの最初の128個の値はASCIIと同じです。しかし、それは8ビットで、256文字を許容するので、そこから構築されて、より広い範囲の文字を含み、それぞれの特定のエンコーディングは異なるセットの基準に焦点を合わせています。 Latin-1にはたくさんのアクセント付きの文字や記号が含まれていましたが、後でLatin-9と呼ばれる修正されたセットに置き換えられ、ユーロ記号のような更新されたグリフが含まれます。. (unicode.orgからのチベット語のスクリプト、Unicode v4の抜粋)...