6.5. unicodedata
— Unicode数据库¶
此模块提供对Unicode字符数据库(UCD)的访问,该字符数据库定义所有Unicode字符的字符属性。该数据库中包含的数据是从 UCD版本9.0.0 编译的。
该模块使用与Unicode标准附录#44,“Unicode字符数据库” 定义的相同的名称和符号。它定义了以下功能:
-
unicodedata.
name
(chr[, default])¶ 返回分配给字符 chr 的名称作为字符串。如果没有定义名称,则返回 default,或者如果未给出,则引发
ValueError
。
-
unicodedata.
decimal
(chr[, default])¶ 将分配给字符 chr 的十进制值作为整数返回。如果没有定义这样的值,则返回 default,或者如果没有给出,则引发
ValueError
。
-
unicodedata.
digit
(chr[, default])¶ 将分配给字符 chr 的数字值作为整数返回。如果没有定义这样的值,则返回 default,或者如果没有给出,则引发
ValueError
。
-
unicodedata.
numeric
(chr[, default])¶ 返回分配给字符 chr 的数值为float。如果没有定义这样的值,则返回 default,或者如果没有给出,则引发
ValueError
。
-
unicodedata.
category
(chr)¶ 将分配给字符 chr 的一般类别返回为字符串。
-
unicodedata.
bidirectional
(chr)¶ 返回分配给字符 chr 的双向类作为字符串。如果没有定义这样的值,则返回一个空字符串。
-
unicodedata.
combining
(chr)¶ 返回分配给字符 chr 的规范组合类作为整数。如果未定义组合类,则返回
0
。
-
unicodedata.
east_asian_width
(chr)¶ 将分配给字符 chr 的东亚宽度返回为字符串。
-
unicodedata.
mirrored
(chr)¶ 将分配给字符 chr 的镜像属性返回为整数。如果字符在双向文本中被标识为“镜像”字符,则返回
1
,否则返回0
。
-
unicodedata.
decomposition
(chr)¶ 返回分配给字符 chr 的字符分解映射作为字符串。如果未定义此类映射,则返回空字符串。
-
unicodedata.
normalize
(form, unistr)¶ 返回Unicode字符串 unistr 的正常格式 form。 form 的有效值是’NFC’,’NFKC’,’NFD’和’NFKD’。
Unicode标准基于规范等价和兼容性等价的定义来定义Unicode字符串的各种规范化形式。在Unicode中,可以以各种方式表示几个字符。例如,字符U + 00C7(LATIN CAPITAL LETTER C WITH CEDILLA)也可以表示为序列U + 0043(拉丁资本信函C)U + 0327(组合CEDILLA)。
对于每个字符,有两种正常形式:正常形式C和正常形式D.正常形式D(NFD)也称为规范分解,并且将每个字符转换为其分解形式。正常形式C(NFC)首先应用规范分解,然后再次组成预组合字符。
除了这两种形式之外,还有两种基于兼容性等价的附加正常形式。在Unicode中,支持某些字符,通常会与其他字符统一。例如,U + 2160(ROMAN NUMERAL ONE)与U + 0049(LATIN CAPITAL LETTER I)真的是一样的。但是,为了与现有字符集(例如gb2312)兼容,它支持Unicode。
正常形式KD(NFKD)将应用兼容性分解,即用其等同物替换所有兼容性字符。正常形式KC(NFKC)首先应用兼容性分解,随后是规范组合。
即使两个unicode字符串被归一化并且对人类读者看起来相同,如果一个具有组合字符,另一个不是,则它们可能不会相等。
此外,模块还会显示以下常量:
-
unicodedata.
unidata_version
¶ 此模块中使用的Unicode数据库的版本。
-
unicodedata.
ucd_3_2_0
¶ 这是一个与整个模块具有相同方法的对象,但是对于需要此特定版本的Unicode数据库(例如IDNA)的应用程序,则使用Unicode数据库版本3.2。
例子:
>>> import unicodedata
>>> unicodedata.lookup('LEFT CURLY BRACKET')
'{'
>>> unicodedata.name('/')
'SOLIDUS'
>>> unicodedata.decimal('9')
9
>>> unicodedata.decimal('a')
Traceback (most recent call last):
File "<stdin>", line 1, in ?
ValueError: not a decimal
>>> unicodedata.category('A') # 'L'etter, 'u'ppercase
'Lu'
>>> unicodedata.bidirectional('\u0660') # 'A'rabic, 'N'umber
'AN'
脚注
[1] |
[2] |