#!/usr/bin/python import re f = open('labels.txt', 'r').read() out = open('label-count.txt', 'w') labels = [ r'text/html\s*;\s*charset\s*=\s*["\']?866', r'text/html\s*;\s*charset\s*=\s*["\']?ansi_x3.4-1986', r'text/html\s*;\s*charset\s*=\s*["\']?asmo-708', r'text/html\s*;\s*charset\s*=\s*["\']?cn-gb', r'text/html\s*;\s*charset\s*=\s*["\']?cp1250', r'text/html\s*;\s*charset\s*=\s*["\']?cp1251', r'text/html\s*;\s*charset\s*=\s*["\']?cp1252', r'text/html\s*;\s*charset\s*=\s*["\']?cp1254', r'text/html\s*;\s*charset\s*=\s*["\']?cp1257', r'text/html\s*;\s*charset\s*=\s*["\']?cp367', r'text/html\s*;\s*charset\s*=\s*["\']?cp50220', r'text/html\s*;\s*charset\s*=\s*["\']?cp51932', r'text/html\s*;\s*charset\s*=\s*["\']?cp819', r'text/html\s*;\s*charset\s*=\s*["\']?cp932', r'text/html\s*;\s*charset\s*=\s*["\']?cp936', r'text/html\s*;\s*charset\s*=\s*["\']?csascii', r'text/html\s*;\s*charset\s*=\s*["\']?cscp50220', r'text/html\s*;\s*charset\s*=\s*["\']?cscp51932', r'text/html\s*;\s*charset\s*=\s*["\']?cseuckr', r'text/html\s*;\s*charset\s*=\s*["\']?cseucpkdfmtjapanese', r'text/html\s*;\s*charset\s*=\s*["\']?csibm866', r'text/html\s*;\s*charset\s*=\s*["\']?csinvariant', r'text/html\s*;\s*charset\s*=\s*["\']?csiso646basic1983', r'text/html\s*;\s*charset\s*=\s*["\']?csiso88596e', r'text/html\s*;\s*charset\s*=\s*["\']?csiso88596i', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-6-i', r'text/html\s*;\s*charset\s*=\s*["\']?csiso88598e', r'text/html\s*;\s*charset\s*=\s*["\']?csiso88598i', r'text/html\s*;\s*charset\s*=\s*["\']?cskoi8r', r'text/html\s*;\s*charset\s*=\s*["\']?csunicode', r'text/html\s*;\s*charset\s*=\s*["\']?csunicode11', r'text/html\s*;\s*charset\s*=\s*["\']?csunicode11utf7', r'text/html\s*;\s*charset\s*=\s*["\']?utf-7', r'text/html\s*;\s*charset\s*=\s*["\']?csunicodeascii', r'text/html\s*;\s*charset\s*=\s*["\']?csunicodejapanese', r'text/html\s*;\s*charset\s*=\s*["\']?csunicodelatin1', r'text/html\s*;\s*charset\s*=\s*["\']?csviscii', r'text/html\s*;\s*charset\s*=\s*["\']?viscii', r'text/html\s*;\s*charset\s*=\s*["\']?cswindows31j', r'text/html\s*;\s*charset\s*=\s*["\']?euc-cn', r'text/html\s*;\s*charset\s*=\s*["\']?euc-tw', r'text/html\s*;\s*charset\s*=\s*["\']?euc-tw', r'text/html\s*;\s*charset\s*=\s*["\']?extended_unix_code_packed_format_for_japanese', r'text/html\s*;\s*charset\s*=\s*["\']?ibm367', r'text/html\s*;\s*charset\s*=\s*["\']?ibm819', r'text/html\s*;\s*charset\s*=\s*["\']?invariant', r'text/html\s*;\s*charset\s*=\s*["\']?iso-10646', r'text/html\s*;\s*charset\s*=\s*["\']?iso-10646-j-1', r'text/html\s*;\s*charset\s*=\s*["\']?iso-10646-ucs-2', r'text/html\s*;\s*charset\s*=\s*["\']?iso-10646-ucs-basic', r'text/html\s*;\s*charset\s*=\s*["\']?iso-10646-unicode-latin1', r'text/html\s*;\s*charset\s*=\s*["\']?iso-2022-cn', r'text/html\s*;\s*charset\s*=\s*["\']?iso-2022-cn', r'text/html\s*;\s*charset\s*=\s*["\']?iso-2022-jp-1', r'text/html\s*;\s*charset\s*=\s*["\']?iso-2022-jp-1', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-6-e', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-6-i', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-6-i', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-8-e', r'text/html\s*;\s*charset\s*=\s*["\']?iso-celtic', r'text/html\s*;\s*charset\s*=\s*["\']?iso-ir-100', r'text/html\s*;\s*charset\s*=\s*["\']?iso-ir-199', r'text/html\s*;\s*charset\s*=\s*["\']?iso-ir-226', r'text/html\s*;\s*charset\s*=\s*["\']?iso-ir-6', r'text/html\s*;\s*charset\s*=\s*["\']?iso646-us', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-11', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-12', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-12', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-13', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-15', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-16', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-3', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-4', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-5', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-6', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-7', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-8', r'text/html\s*;\s*charset\s*=\s*["\']?iso8859-9', r'text/html\s*;\s*charset\s*=\s*["\']?iso88591', r'text/html\s*;\s*charset\s*=\s*["\']?iso885910', r'text/html\s*;\s*charset\s*=\s*["\']?iso885911', r'text/html\s*;\s*charset\s*=\s*["\']?iso885912', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-12', r'text/html\s*;\s*charset\s*=\s*["\']?iso885913', r'text/html\s*;\s*charset\s*=\s*["\']?iso885914', r'text/html\s*;\s*charset\s*=\s*["\']?iso885915', r'text/html\s*;\s*charset\s*=\s*["\']?iso885916', r'text/html\s*;\s*charset\s*=\s*["\']?iso88592', r'text/html\s*;\s*charset\s*=\s*["\']?iso88593', r'text/html\s*;\s*charset\s*=\s*["\']?iso88594', r'text/html\s*;\s*charset\s*=\s*["\']?iso88595', r'text/html\s*;\s*charset\s*=\s*["\']?iso88596', r'text/html\s*;\s*charset\s*=\s*["\']?iso88597', r'text/html\s*;\s*charset\s*=\s*["\']?iso88598', r'text/html\s*;\s*charset\s*=\s*["\']?iso88599', r'text/html\s*;\s*charset\s*=\s*["\']?iso_646.basic:1983', r'text/html\s*;\s*charset\s*=\s*["\']?iso_646.irv:1991', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-10:1992', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-14', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-14:1998', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-16', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-16:2001', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-1:1987', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-2:1987', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-3:1988', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-4:1988', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-5:1988', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-6-e', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-6-i', r'text/html\s*;\s*charset\s*=\s*["\']?iso-8859-6-i', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-6:1987', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-7:1987', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-8-e', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-8-i', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-8:1988', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-9', r'text/html\s*;\s*charset\s*=\s*["\']?iso_8859-9:1989', r'text/html\s*;\s*charset\s*=\s*["\']?ks_c_5601-1987', r'text/html\s*;\s*charset\s*=\s*["\']?l10', r'text/html\s*;\s*charset\s*=\s*["\']?l8', r'text/html\s*;\s*charset\s*=\s*["\']?latin-9', r'text/html\s*;\s*charset\s*=\s*["\']?latin10', r'text/html\s*;\s*charset\s*=\s*["\']?latin8', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1250', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1251', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1252', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1253', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1254', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1255', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1256', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1257', r'text/html\s*;\s*charset\s*=\s*["\']?microsoft-cp1258', r'text/html\s*;\s*charset\s*=\s*["\']?ms932', r'text/html\s*;\s*charset\s*=\s*["\']?ms936', r'text/html\s*;\s*charset\s*=\s*["\']?ref', r'text/html\s*;\s*charset\s*=\s*["\']?sjis', r'text/html\s*;\s*charset\s*=\s*["\']?tis-620-2533', r'text/html\s*;\s*charset\s*=\s*["\']?unicode-1-1', r'text/html\s*;\s*charset\s*=\s*["\']?unicode-1-1-utf-7', r'text/html\s*;\s*charset\s*=\s*["\']?utf-7', r'text/html\s*;\s*charset\s*=\s*["\']?us', r'text/html\s*;\s*charset\s*=\s*["\']?utf-7', r'text/html\s*;\s*charset\s*=\s*["\']?utf-7', r'text/html\s*;\s*charset\s*=\s*["\']?viscii', r'text/html\s*;\s*charset\s*=\s*["\']?viscii', r'text/html\s*;\s*charset\s*=\s*["\']?windows-936', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1252', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1253', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1254', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1255', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1256', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1257', r'text/html\s*;\s*charset\s*=\s*["\']?x-cp1258', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-ce', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-ce', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-greek', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-greek', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-turkish', r'text/html\s*;\s*charset\s*=\s*["\']?x-mac-turkish', r'text/html\s*;\s*charset\s*=\s*["\']?x-user-defined', r'text/html\s*;\s*charset\s*=\s*["\']?x-user-defined' ] for label in labels: count = len(re.findall(label, f, re.I)) if count != 0: out.write(str(label) + ': ' + str(count) + '\n') out.close()