基本多言語面

From Wikipedia, the free encyclopedia

Unicode > 面 (文字コード) > 基本多言語面

基本多言語面(きほんたげんごめん、: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。

BMPの符号位置は、UTF-16UTF-8では、他の面より少ないオクテットバイト)数で符号化される。

  • UTF-8では、1〜3オクテットで符号化される。
  • UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。
  • UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。

配置領域

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)

主な配置領域
開始終了配置領域名
00001FFF一般スクリプト
20002DFF記号
2E0033FFCJKの表音文字と記号
34009FFFCJK統合漢字
A000A4CF彝文字
AC00D7AFハングル音節
D800DFFF代用符号位置
E000F8FF私用
F900FFFD互換文字と特殊文字

当初基本多言語面は以下のような4つの「領域」に分けられていた[1]

  • 0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
  • 3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
  • A000 DFFFを将来の標準化のために使うO領域
  • E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]

  • D800 DFFFを代用符号位置に使用するS領域
  • E000 F8FFを私用領域

収録されている用字系

BMPの用字系
英語表記 日本語表記 Unicode範囲
Basic Latin基本ラテン文字 U+0000-U+007F
Latin-1 Supplementラテン1補助 U+0080-U+00FF
Latin Extended-Aラテン文字拡張A U+0100-U+017F
Latin Extended-Bラテン文字拡張B U+0180-U+024F
IPA ExtensionsIPA拡張 U+0250-U+02AF
Spacing Modifier Letters前進を伴う修飾文字 U+02B0-U+02FF
Combining Diacritical Marks合成可能なダイアクリティカルマーク U+0300-U+036F
Greek and Copticギリシア文字及びコプト文字 U+0370-U+03FF
Cyrillicキリル文字 U+0400-U+04FF
Cyrillic Supplementキリル文字補助 U+0500-U+052F
Armenianアルメニア文字 U+0530-U+058F
Hebrewヘブライ文字 U+0590-U+05FF
Arabicアラビア文字 U+0600-U+06FF
Syriacシリア文字 U+0700-U+074F
Arabic Supplementアラビア文字補助 U+0750-U+077F
Thaanaターナ文字 U+0780-U+07BF
NKoンコ文字 U+07C0-U+07FF
Samaritanサマリア文字 U+0800-U+083F
Mandaicマンダ文字 U+0840-U+085F
Syriac Supplementシリア文字補助 U+0860-U+086F
Arabic Extended-Bアラビア文字拡張B U+0870-U+089F
Arabic Extended-Aアラビア文字拡張A U+08A0-U+08FF
Devanagariデーヴァナーガリー文字 U+0900-U+097F
Bengaliベンガル文字 U+0980-U+09FF
Gurmukhiグルムキー文字 U+0A00-U+0A7F
Gujaratiグジャラート文字 U+0A80-U+0AFF
Oriyaオリヤー文字 U+0B00-U+0B7F
Tamilタミル文字 U+0B80-U+0BFF
Teluguテルグ文字 U+0C00-U+0C7F
Kannadaカンナダ文字 U+0C80-U+0CFF
Malayalamマラヤーラム文字 U+0D00-U+0D7F
Sinhalaシンハラ文字 U+0D80-U+0DFF
Thaiタイ文字 U+0E00-U+0E7F
Laoラオス文字 U+0E80-U+0EFF
Tibetanチベット文字 U+0F00-U+0FFF
Myanmarミャンマー文字 U+1000-U+109F
Georgianジョージア文字 U+10A0-U+10FF
Hangul Jamoハングル字母 U+1100-U+11FF
Ethiopicエチオピア文字 U+1200-U+137F
Ethiopic Supplementエチオピア文字補助 U+1380-U+139F
Cherokeeチェロキー文字 U+13A0-U+13FF
Unified Canadian Aboriginal Syllabics統合カナダ先住民音節 U+1400-U+167F
Oghamオガム文字 U+1680-U+169F
Runicルーン文字 U+16A0-U+16FF
Tagalogタガログ文字 U+1700-U+171F
Hanunooハヌノオ文字 U+1720-U+173F
Buhidブヒッド文字 U+1740-U+175F
Tagbanwaタグバヌア文字 U+1760-U+177F
Khmerクメール文字 U+1780-U+17FF
Mongolianモンゴル文字 U+1800-U+18AF
Unified Canadian Aboriginal Syllabics Extended統合カナダ先住民音節拡張 U+18B0-U+18FF
Limbuリンブ文字 U+1900-U+194F
Tai Leタイ・レ文字 U+1950-U+197F
New Tai Lue新タイ・ロ文字 U+1980-U+19DF
Khmer Symbolsクメール文字用記号 U+19E0-U+19FF
Bugineseブギス文字 U+1A00-U+1A1F
Tai Thamタイ・タム文字 U+1A20-U+1AAF
Combining Diacritical Marks Extended合成可能なダイアクリティカルマーク拡張 U+1AB0-U+1AFF
Balineseバリ文字 U+1B00-U+1B7F
Sundaneseスンダ文字 U+1B80-U+1BBF
Batakバタク文字 U+1BC0-U+1BFF
Lepchaレプチャ文字 U+1C00-U+1C4F
Ol Chikiオル・チキ文字 U+1C50-U+1C7F
Cyrillic Extended-Cキリル文字拡張C U+1C80-U+1C8F
Georgian Extendedジョージア文字拡張 U+1C90-U+1CBF
Sundanese Supplementスンダ文字補助 U+1CC0-U+1CCF
Vedic Extensionsヴェーダ用拡張 U+1CD0-U+1CFF
Phonetic Extensions音声記号拡張 U+1D00-U+1D7F
Phonetic Extensions Supplement音声記号拡張補助 U+1D80-U+1DBF
Combining Diacritical Marks Supplement合成可能なダイアクリティカルマーク補助 U+1DC0-U+1DFF
Latin Extended Additionalラテン文字拡張追加 U+1E00-U+1EFF
Greek Extendedギリシア文字拡張 U+1F00-U+1FFF
General Punctuation一般句読点 U+2000-U+206F
Superscripts and Subscripts上付き・下付き U+2070-U+209F
Currency Symbols通貨記号 U+20A0-U+20CF
Combining Diacritical Marks for Symbols合成可能な記号用ダイアクリティカルマーク U+20D0-U+20FF
Letterlike Symbols文字様記号 U+2100-U+214F
Number Forms数字に準ずるもの U+2150-U+218F
Arrows矢印 U+2190-U+21FF
Mathematical Operators数学記号 U+2200-U+22FF
Miscellaneous Technicalその他の技術用記号 U+2300-U+23FF
Control Pictures制御機能用記号 U+2400-U+243F
Optical Character Recognition光学的文字認識 U+2440-U+245F
Enclosed Alphanumerics囲み英数字 U+2460-U+24FF
Box Drawingけい線素片 U+2500-U+257F
Block Elementsブロック要素 U+2580-U+259F
Geometric Shapes幾何学模様 U+25A0-U+25FF
Miscellaneous Symbolsその他の記号 U+2600-U+26FF
Dingbats装飾記号 U+2700-U+27BF
Miscellaneous Mathematical Symbols-Aその他の数学記号A U+27C0-U+27EF
Supplemental Arrows-A補助矢印A U+27F0-U+27FF
Braille Patterns点字図形 U+2800-U+28FF
Supplemental Arrows-B補助矢印B U+2900-U+297F
Miscellaneous Mathematical Symbols-Bその他の数学記号B U+2980-U+29FF
Supplemental Mathematical Operators補助数学記号 U+2A00-U+2AFF
Miscellaneous Symbols and Arrowsその他の記号及び矢印 U+2B00-U+2BFF
Glagoliticグラゴル文字 U+2C00-U+2C5F
Latin Extended-Cラテン文字拡張C U+2C60-U+2C7F
Copticコプト文字 U+2C80-U+2CFF
Georgian Supplementジョージア文字補助 U+2D00-U+2D2F
Tifinaghティフィナグ文字 U+2D30-U+2D7F
Ethiopic Extendedエチオピア文字拡張 U+2D80-U+2DDF
Cyrillic Extended-Aキリル文字拡張A U+2DE0-U+2DFF
Supplemental Punctuation補助句読点 U+2E00-U+2E7F
CJK Radicals SupplementCJK部首補助 U+2E80-U+2EFF
Kangxi Radicals康煕部首 U+2F00-U+2FDF
Ideographic Description Characters漢字構成記述文字 U+2FF0-U+2FFF
CJK Symbols and PunctuationCJKの記号及び句読点 U+3000-U+303F
Hiragana平仮名 U+3040-U+309F
Katakana片仮名 U+30A0-U+30FF
Bopomofo注音字母 U+3100-U+312F
Hangul Compatibility Jamoハングル互換字母 U+3130-U+318F
Kanbun漢文用記号 U+3190-U+319F
Bopomofo Extended注音字母拡張 U+31A0-U+31BF
CJK StrokesCJKの筆画 U+31C0-U+31EF
Katakana Phonetic Extensions片仮名拡張 U+31F0-U+31FF
Enclosed CJK Letters and Months囲みCJK文字・月 U+3200-U+32FF
CJK CompatibilityCJK互換用文字 U+3300-U+33FF
CJK Unified Ideographs Extension ACJK統合漢字拡張A U+3400-U+4DBF
Yijing Hexagram Symbols易経記号 U+4DC0-U+4DFF
CJK Unified IdeographsCJK統合漢字 U+4E00-U+9FFF
Yi Syllablesイ文字 U+A000-U+A48F
Yi Radicalsイ文字部首 U+A490-U+A4CF
Lisuリス文字 U+A4D0-U+A4FF
Vaiヴァイ文字 U+A500-U+A63F
Cyrillic Extended-Bキリル文字拡張B U+A640-U+A69F
Bamumバムン文字 U+A6A0-U+A6FF
Modifier Tone Letters声調修飾文字 U+A700-U+A71F
Latin Extended-Dラテン文字拡張D U+A720-U+A7FF
Syloti Nagriシロティ・ナグリ文字 U+A800-U+A82F
Common Indic Number Formsインド慣用数量記号 U+A830-U+A83F
Phags-paパスパ文字 U+A840-U+A87F
Saurashtraサウラーシュトラ文字 U+A880-U+A8DF
Devanagari Extendedデーヴァナーガリー文字拡張 U+A8E0-U+A8FF
Kayah Liカヤー文字 U+A900-U+A92F
Rejangルジャン文字 U+A930-U+A95F
Hangul Jamo Extended-Aハングル字母拡張A U+A960-U+A97F
Javaneseジャワ文字 U+A980-U+A9DF
Myanmar Extended-Bミャンマー文字拡張B U+A9E0-U+A9FF
Chamチャム文字 U+AA00-U+AA5F
Myanmar Extended-Aミャンマー文字拡張A U+AA60-U+AA7F
Tai Vietタイ・ヴィエト文字 U+AA80-U+AADF
Meetei Mayek Extensionsメイテイ文字拡張 U+AAE0-U+AAFF
Ethiopic Extended-Aエチオピア文字拡張A U+AB00-U+AB2F
Latin Extended-Eラテン文字拡張E U+AB30-U+AB6F
Cherokee Supplementチェロキー文字補助 U+AB70-U+ABBF
Meetei Mayekメイテイ文字 U+ABC0-U+ABFF
Hangul Syllablesハングル音節文字 U+AC00-U+D7AF
Hangul Jamo Extended-Bハングル字母拡張B U+D7B0-U+D7FF
High Surrogatesサロゲート (high surrogate) U+D800-U+DB7F
High Private Use Surrogatesサロゲート (high private use surrogate) U+DB80-U+DBFF
Low Surrogatesサロゲート (low surrogate) U+DC00-U+DFFF
Private Use Area私用領域 U+E000-U+F8FF
CJK Compatibility IdeographsCJK互換漢字 U+F900-U+FAFF
Alphabetic Presentation Formsアルファベット表示形 U+FB00-U+FB4F
Arabic Presentation Forms-Aアラビア表示形A U+FB50-U+FDFF
Variation Selectors字形選択子 U+FE00-U+FE0F
Vertical Forms縦書き形 U+FE10-U+FE1F
Combining Half Marks合成可能な半記号 U+FE20-U+FE2F
CJK Compatibility FormsCJK互換形 U+FE30-U+FE4F
Small Form Variants小字形 U+FE50-U+FE6F
Arabic Presentation Forms-Bアラビア表示形B U+FE70-U+FEFF
Halfwidth and Fullwidth Forms半角・全角形 U+FF00-U+FFEF
Specials特殊用途文字 U+FFF0-U+FFFF

関連項目

脚注

外部リンク

Related Articles

Wikiwand AI