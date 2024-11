大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。What has case distinction but is neither uppercase nor lowercase? - The Old New Thing

https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が4つだけ存在します。チェン氏によると、それは以下の「DZ」「DŽ」「LJ」「NJ」の4つ。表記では「DZ」「NJ」のように2文字に見えますが、それぞれUnicodeのコードポイント1つで指定された1文字です。「DZ」はハンガリー語アルファベットの7つ目の文字です。ハンガリー語アルファベットの最初の10文字は以下のような感じ。これらの文字は、小文字(Lowercase)だと「dz」「dž」「lj」「nj」という表記になります。さらにこれらの文字には、もう1種類の「Dz」「Dž」「Lj」「Nj」という表記があります。これは大文字や小文字ではなく「Titlecase(タイトルケース)」と分類されます。以下は、Unicode文字を変換・検索できるrakko.toolsで「U+01F2」を検索してみた結果。グラフィカルシンボルには「Dz」と表示され、「Uppercase_Letter(大文字)」や「Lowercase_Letter(小文字)」と表示される「一般カテゴリ」には、「Titlecase_Letter」と表示されています。タイトルケースとは文頭を大文字にする文章形式を指します。そのため、「Dz」などの文字が文頭にくる場合は大文字でも小文字でもなくタイトルケースが用いられますが、チェン氏の開発者ブログに寄せられたハンガリー語話者たちのコメントによると、そもそも「Dz」などの複合文字は現在実際に使用されているとは言いがたく、たとえば英語の「technic」では「ch」2文字で1つの発音としているのとほとんど変わらないそうです。チェン氏は「これは、世界があなたが思っているよりも複雑であるという状況を示す1つの例です。アルファベットには大文字と小文字があるという理解とは別に、あなたが知らなかった別のケースがあります」と言語の興味深さについて語りました。