Кодированиераскодирование UTF8


Содержание

�����������/�������������� UTF8

����Not. ������� ����� ��������� � Unicode, UTF-8 � Windows-1251

������� ����� ��������� � Unicode, UTF-8 � Windows-1251

��-������, �������, ��� ������ — �� ���������, � �������� �����������, ��������� — ��� UTF-8, UTF-16 � �.�., ��, � ���� �������, ������������ � ������������ ����� ������� � «��������� ������», ���� � ���� ��������������� ������ � �� ������� ����� ������������� �������� :)

��-������, �� ����� ���� ����������� ��� �������� ����������, ������, ������ ������� ��������� «�».

�������������� � ������� ������� ���������� ������ ������� ��� �����, �� ����� �������� «������ �������� Unicode».

���, ��� ����� «�» Unicode = 104610 ��� 041616 ��� 10000 0101102. Unicode � �������� ���� ����������� �� ��� �����: ���� ����� ��� � ����� ������. ����� ����� � ������� �������� ����������� �� ����� ��������� 110 ������������ ���� UTF-8, �������� 11010000. � ������ ����� � ������� �������� ������������� ��� ���� 10 �������� ����������� ������������� ����, �������� 10010110. ������������ ��� ����� «�» � UTF-8 ����� ����� ��� 11010000 100101102 ��� D0 9616.

������ ��������� ��� �� ������ � ����� 16-������ ������ �����, ��������, ������ � ��������� ��������� ���� �� ������ «����» � �������� ��� � UTF-8 (������ �� �� ���������� Windows, ������� ������� � ������ ����� 3-�������� ����� BOM):

�� ����, ������ ����� ���������� ��� �� ������, ������� � 11-������ Unicode, ����� � 16-������ UTF-8.

���� ��������� ������� ����� ��������� � Unicode, UTF-8 � ������������ ��������� Windows-1251.

������ Unicode UTF-8 Windows-1251
16-����. 10-����. 16-����. 10-����.
0410 1040 D090 208 144 192
0411 1041 D091 208 145 193
0412 1042 D092 208 146 194
0413 1043 D093 208 147 195
0414 1044 D094 208 148 196
0415 1045 D095 208 149 197
0416 1046 D096 208 150 198
0417 1047 D097 208 151 199
0418 1048 D098 208 152 200
0419 1049 D099 208 153 201
041A 1050 D09A 208 154 202
041B 1051 D09B 208 155 203
041C 1052 D09C 208 156 204
041D 1053 D09D 208 157 205
041E 1054 D09E 208 158 206
041F 1055 D09F 208 159 207
0420 1056 D0A0 208 160 208
0421 1057 D0A1 208 161 209
0422 1058 D0A2 208 162 210
0423 1059 D0A3 208 163 211
0424 1060 D0A4 208 164 212
0425 1061 D0A5 208 165 213
0426 1062 D0A6 208 166 214
0427 1063 D0A7 208 167 215
0428 1064 D0A8 208 168 216
0429 1065 D0A9 208 169 217
042A 1066 D0AA 208 170 218
042B 1067 D0AB 208 171 219
042C 1068 D0AC 208 172 220
042D 1069 D0AD 208 173 221
042E 1070 D0AE 208 174 222
042F 1071 D0AF 208 175 223
0430 1072 D0B0 208 176 224
0431 1073 D0B1 208 177 225
0432 1074 D0B2 208 178 226
0433 1075 D0B3 208 179 227
0434 1076 D0B4 208 180 228
0435 1077 D0B5 208 181 229
0436 1078 D0B6 208 182 230
0437 1079 D0B7 208 183 231
0438 1080 D0B8 208 184 232
0439 1081 D0B9 208 185 233
043A 1082 D0BA 208 186 234
043B 1083 D0BB 208 187 235
043C 1084 D0BC 208 188 236
043D 1085 D0BD 208 189 237
043E 1086 D0BE 208 190 238
043F 1087 D0BF 208 191 239
0440 1088 D180 209 128 240
0441 1089 D181 209 129 241
0442 1090 D182 209 130 242
0443 1091 D183 209 131 243
0444 1092 D184 209 132 244
0445 1093 D185 209 133 245
0446 1094 D186 209 134 246
0447 1095 D187 209 135 247
0448 1096 D188 209 136 248
0449 1097 D189 209 137 249
044A 1098 D18A 209 138 250
044B 1099 D18B 209 139 251
044C 1100 D18C 209 140 252
044D 1101 D18D 209 141 253
044E 1102 D18E 209 142 254
044F 1103 D18F 209 143 255

�� �������� �� � UTF-8 ������������ ������ �������� �� ������ �� ������� ����, ������ ��� �� �������� ������� ���� ������ ��� ���� ������������ �� �������� �����������. ��� ��������� ����� � ��� ���������� � ���� ����, ��� �� ��� � � ������ ������ ASCII.

��� �������������, � ������ ����������� ������ ��������, ���� �� ���������, ������� �� �������� ������, ��� ����� ��������� ��, ��� ������������ � ���-8. �.�. ������� ����� ���� ������ ������� � ��� ������ ����������� Unicode.

������������� �� ����� � UTF-8 ���������� � ��� �����, �, ��������, ���������� � � ��� �����. ���������� ������ ����� �������� UTF 16 � 8 ����� �������� �������� � ������ � ��� � ������� ���������� ������ ������� ������������. � ������ �� �������������� �������� ������ ������ �� ����� ��� � ������������ ��������� ��� ���������� ������� �������� ������. ������ � ������ ���� ������ �������� ���������.

� ����������� ���� ���� �������� �������� �����, ��� ������ ������ ������������ ������ ���������� ������. ��������� ���������� ��������� ������� ������ ����� ������ ����� ��������. �� ���� ������ ��� ���������� �� ���, ��� ��� ������� ��� ������ ���������, � ���, ��� ������������� ������ �������� ��� �� �������� ������ ������� ������������ ���� ��� ����� ���������� ������� �� �����.

���������� ������ ������� ���� � ��� ���������

������� ������ ���������, ��� ���������� ������ ������ ���������� ���, ������� �������, ��� ���������� ���������� ��������� ��� �������� ������. ����������, ��� �������� � ��� ���������, � ������� �� �������� ��� ������������ ���� ����� �����, ��� �� ��� � �������������� ��������� ����������.

��� �������������� � �������� ��������� ������ ����� � ��������� ����� �������, �� ��� ������, Html � PHP �������� Notepad++. �������, �� ����� ������������ ��������� ��� ������ ����� ������ ���������������� � ��������, � ����� ����� ����������� ���������� � ������� ��������. ������� ��������� ����� ���� ������������� ��������� �� ����������� ������.

� ������� ���� Notepad++ ���� ����� ����������, ��� � ��� ����� ����������� ������������� ��� ��������� ������� � ���, ������� ������������ �� ����� ����� �� ���������:

� ������ ����� �� Joomla 1.5 � ����, � ����� � ������ ����� �� WordPress ������� �� ��������� ��������� ����������� �������� ������� UTF 8 ��� BOM. � ��� ����� ��������� BOM?

���� � ���, ��� ����� ������������� ��������� ���-16, �����-�� ������ ���������� � ��� ����� ����, ��� ����������� ���������� ��� �������, ��� � ������ ������������������ (��������, 0A15), ��� � � �������� (150A). � ��� ����, ����� ��������� ��������, � ����� ������ ������������������ ������ ����, � ��� �������� BOM (Byte Order Mark ���, ������� �������, ���������), ������� ���������� � ���������� ���� �������������� ������ � ����� ������ ����������.

� ��������� UTF-8 ������� BOM ������������� � ����������� ������ �� ���� � ������� ���������� ��������� (���� ����� ����������� �������������� ���� ������ � ������ ���������) ��������� ���������� ������-�������� ������ ������ ���. ������� �� ������ ��� ���������� ������ � ��� ������ �������� ������� ��� BOM (��� ���������). ����� �������, �� ������� ����������� ���� �� ��������� �����������.

��� �������������, ��������� ��������� � Windows �� ����� ����� ������ (�� ����� ��������� ����� � ���-8 ��� BOM), ��������, ��� ��� �� ����������� ������� Windows. �� ��������� �������� � UTF-8, �� ��� ����� ��������� � ��� ������ ��������� (��� �������������� �����). ������ ��� ����� ����� ������ ���� � �� �� � ������ ��� � ������ ������������������. �� �� �������� ��-�� ���� ������ ����� ���������� �������� � ������� ����������.

������� �� � ���� ������ �� ����������� ������� ��������� Windows ��� �������������� ���������� ������ �����, ���� �� ������ ��������� �����������. ������ � �������� ������� ��������� � ������ ��� ���������� �������� Notepad++, ������� ����������� �� ����� ����������� � ������� �� ����� ���� ����������.

� Notepad ++ ��� ������ ��������� � ��� ����� ����������� ������������� ����� � ��������� UCS-2, ������� �� ����� ���� ����� ������ � ��������� ������. ����� � �������� ����� ����� ������������ ����� � ANSI, �.�. ������������� � �������� ����� ��� ����� ��� ��������� ���� ���� ���� Windows 1251. ������ ������� ��� ����������?

��� ��������� � ������� ����� ������������ ������� Windows � ����� ��������� �������� � ������ ANSI, ����� �������� � ������ OEM (��� �������� ����� ��� ����� CP866). ���� �� ���������� �� ����� ���������� ������ ���� �� ���������, �� � ��� ��������� ����� �������� �� ����������� �� ������� ANSI ��� OEM ��� ���� ������ �����.

����� ����, ��� �� � Notepad++ ��������� �������� � ������ ��� ��������� ��� �� �������� �������� � ����� ��� ��������������, �� � ������ ������ ���� ��������� ������� ������� �� ��������:

����� �������� �����������, ����� ��������� ���� ��������, ����� �������� ��������� � ��� ����� ��������� ���� ���� ������� ����� ���������� �� ���� ����� ���������, ����� �� ������� ��� ��������� ����� �� �������� ��������.

������, �� ���� ������ �������������� �������� ����� Html ������������ ����������� ���������� xml, � ������� ����������� ��������� ������.

������, ��� ������ ��������� ���, ������� ������, ����� ������ ������������ � ��� ������ ����� ���������������� ���� �������� ����� �����. �� ��� �������������, � ������, ���� �� ���������� �������� � �������� �� ��������� �������, �� ��� ���������� xml ����� ����� �������� (��������� ����� ��������� UTF-8, ���� ��� BOM ��� ���-16, ���� BOM ����).

� ������ �� ��������� ����� Html ��� �������� ��������� ������������ ������� Meta, ������� ������������� ����� ����������� � ����������� ����� Head:

��� ������ �������� ������ ���������� �� �������� � ��������� � Html 4.01, �� ��������� ������������� ������ ����������� ���������� ��������� Html 5, � ��� ����� ������������ ��������� ������ ������ ������������� �� ������� ������ ����������.

�� ����, ������� Meta � �������� ��������� Html ��������� ����� ����� ������� ��� ����� ���� � ����� ���������, ����� �� ������ ������� � ������ ������� ����� �� �� ������� ANSI (������� ��������� ����������� ������ � � ����� ��������) ������� ��� ������ ����� ���������� � ���, ��� ���������������� ���� ���� ��������.

������ UTF-8: ����������� � �������������

Dragokas

Very kind Developer

�������� ����������� � ���, ��� �� �������� UTF-8 � ��� ����� ������ �������� ��� ����, ��� VBScript �� ����� ���������� ������� ������ � UTF-8. � ��� ��� ������ �������� �� �����, �� �������� ������/���������� ������. ���� �� ��� ������ �������� � ����� ������. ��� ������� ��������� ����� � ������.

�� ��������� ������� ������ �������������� 8-������ ���������, ������� ������ ������� ��������:

  • ����� 255 ��������, �� � �� ����� �� ��� �� �����������;
  • ����������� ������� �������� �� � ��� ����������, � ������� �� ��� ������;
  • ������ ���������� ��������� ��� ������ ���������.

��� � ���� ������ ������� ������ �������� �������� ���������, ������� �������� �� ��� ������� (��� ��� ������� ������ � ��� �������� ������ ������� �������, �� ����� ���������� � ������ ��������� � ������������). ������ ���������� 1 112 064 ������� ������� (������ ��� 16 ���). ������ ��������� ASCII, � ������ ������� ��������, ��������, ������ ����������� � ��������� �������. ��� ����������� �������� ���������� ����������������� ������ ���� �U+xxxx� ��� ������ 65k � � ������� ����������� ���� ��� ���������.

�����-�� � ����� ��� ���� ������, � ���� UTF-8. ����� � �����, ��� ��������.
UTF-8 �������� ���� �������������� ������� � 8-������ ����. ������� � ������ ������ 128 �������������� ����� ������, � ��� ��� � ������� ��� ��������� ASCII, �� ����� ���������� ������ ����� ��������� ����� �������� ������� � ASCII. ������� �� � ������ �� 128 ���������� 2-�� �������, � ������ �� 2048 � 3-��, �� 65536 � 4-��. ��� ����� ���� �� � �� 6-�� ���� �����, �� ���������� ��� ��� ������.

0x00000000 � 0x0000007F: 0xxxxxxx
0x00000080 � 0x000007FF: 110xxxxx 10xxxxxx
0x00000800 � 0x0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
0x00010000 � 0x001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

�������� � UTF-8

������� �������� �������� �����:

  • ������ ������ ���������� � ������.
  • ��������� �� ������ ������ ���������.
  • ���� ��� ������� ������ 128, �� � ���������� ��������� ��� � ���������� ����.
  • ���� ��� ������� ������ 2048, �� ����� ��������� 6 ��� � ������ 5 ��� ���� �������. � ������ 5 ����� ��������� 0xC0 � �������� ������ ���� ������������������, � � ��������� 6 ����� ��������� 0x80 � �������� ������ ����. ������������� � ��������� � ����������.
  • ������� ������� ����� ���������� � ��� ������� �����, �� ���� ������ �� ��������� U+FFFF �������� ����� ���� � UTF-16 �����������.

������� ������ � ���������� ��������� utf 8 � windows 1251 ������

UTF-8 (Unicode Transformation Format, 8-bit � ������� �������������� �������, 8-������) � ���� �� ������������ � ������������������� ��������� ������, ������� ��������� ������� ������� � Unicode. �������� UTF-8 ���������� �������� � ���������� RFC 3629 � ISO/IEC 10646 Annex D. ��������� ����� ������� ���������� � UNIX-�������� ������������ �������� � ���-������������. � �������� BOM ���������� ������������������ ���� EF16, BB16, BF16 (��� �������� ����������� ����������� ������� FEFF16). ����� �� ����������� �������� ������������� � ASCII � ����� �� 7-������ ������� ������������ ��� ����, � ��������� ������ ������������ ����� (���). ������� � ������, ���� ��������� ����� � ���������� ����� ���������� (������� ������) �������� ������������ ����� ������, UTF-8 ��� ������� �� ������ � ��������� � UTF-16.

Windows-1251 (������� CP1251) � �������� ����������� 8-������ ���������� ��� ���� ������� ������ Microsoft Windows. ���������� �������� ������� �������������. Windows-1251 ������� ���������� �� ������ 8?������ ������������� ��������� (����� ��� CP866, KOI8-R � ISO 8859-5) �������� ����������� ���� ��������, �������������� � ������� ����������� ��� �������� ������ (����������� ������ ���� — ��������); ��� ����� �������� ��� ������� ��� ������� � �������� ����� ������: �����������, ������������, ���������, ������������ � �����������.

������������� ������ ������� (���������� ���������)

����� ���������� (������ ��� ����������� �����������) ��� �������� ��� ����������, ���� ��� ���������� �������� � ������� ����������� ������ ��� �������� �������� � ���������� ������� � PHP (����������� � ���� �������� ���������� ���������� �������� — «����������»). �������������� � ������������� ������ � ������ ������, ������������� ������� ���������� ���������, ������� ������� ���� ���������� ���������, ����� �� ����� ������� ���������� � ��������� ����� �� ����� ��������� � ������. �� ���� ������������� ������� ������� ��������� ����� (�����������, ��� �� ���������) � ������ ������������� �������.

����� ��������������� ������������ ��������� ������ � ������ ������, ������ ��������� �� ������ [�������]

������ ������� �����������, ������ ������������ ����� ��� PHP ��� HTML �������, � ����� ���� � Java? ��� �������� ��������� �������� ������������� (��������������) ����� ��������, �� ������ ����������� ������� �� ������� ��������� � ������� ��� ��� ����������� � ��� ����� ���������� ������� ������ ������ ���������, � �� ���������� ����� ������� �������������. � ������ � ��������� ����������� �� ������������ � ������ ���������� ��������� ������� ������ ����� ������ ��������� ������������ � ����� ������ � �������� ������������� ������� � ���� ��������.

������������ ���������� ��. �. �. �������
Bauman National Library

������������ �����������

UTF-8 (����. Unicode Transformation Format , 8-bit � ������� �������������� Unicode, 8-������) � ���� �� ������������ � ������������������� ��������� ������, ������� ��������� ������� ������� Unicode, ��������� ���������� ���������� ���� (�� 1 �� 6) [�������� 1] . �������� UTF-8 ���������� �������� � ���������� RFC 3629 � ISO/IEC 10646 Annex D. ��������� ����� ������� ���������� � UNIX-�������� ������������ �������� � ���-������������ [�������� 2] ��� �� ������ UTF-8 ��� �������� 2 �������� 1992 ���� ����� ��������� � ����� ������ � ���������� � Plan 9

����������

������� ��������

�� ��������� Unicode UTF-8 ������ �������������� ������ ��������� (ASCII, ISO/IEC 646, ISO/IEC 8859, KOI8, Windows-125x).

������� ��������� UTF-8 ���� ���������� ������������ �� ����������� USENIX � ��� ����� � ������ 1993. �� ������ ������������� ��������� �� �������� ������ ������������� � ASCII: ��� ������� ASCII � UTF-8 ���������� 7 ������. ������ ������ ���������, �������� �� ASCII, ������� �� �������� �����, ������������ ����� ������������������, � ������ ��� ���������� ������������ ����. ����� ������� ��������� ���������� ����� ������������������ ������ �� ������� �����. ���� �������� ASCII, ������� � ������������ ���� �� ������������, ��� ��������� ����� ����� ������ ������������������ ������� ������� ����� �������� �� ���� ����.

� ������ 2003 ���� ���������� RFC-3629 ������������ ����� ������������������ UTF-8 ���� ���������� �������� �������, ������ ������������ UTF-8 ��������� ������������ ������������������ ������ �� ����� ����. �� ����������� ���� ����� ���������������� ���������� �������� UTF-8. ��� �������� � ���� ����� ���� ��������� ��������: ��� ��������� ����������� ��������, �����, ����� ����������, �������������� � ����������� �������, ����������� ����� � ������� �������� ���� ������������. � ������� UTF-8 ������ ��� ���������� ����� ���� ���������� ��������. ��� ��� � ����� ��������� � ��������� ����� ������������ �� �������.

������ ��������� ����������� ���������� � ������� ������������ �����. �������� Google, ����� ���������������� � ��������� ���������� UTF-8 ����� ������ � 2008 ���� � ����� �� ������������ ���� ����� ��� 25% ������������������ ���-�������. � ��� � 2006 UTF-8 ������������ ����� ��� 10% ���-�������.

������������� ���� ������������ ��������� UTF-8 ������ � ����� ����� �� ����������� ����� �����������������. [�������� 3]

�������� ������

UTF-8 �������� ���� �������������� Unicode � 8-������ ����. ������� � ������ ������ 128 �������������� ����� ������ (��������� �������, ���������� ����� ���������� � �������� �����), � ��� ��� � Unicode ��� ��������� ASCII, �� ����� ���������� ������ ����� ��������� ����� �������� ������� � ASCII.

������� � ������ ��:

  • 128 � 2-�� �������.(���������, ����������� ��������, ��������, ���������, ���������, ��������� � �������� �������, ��������� ������, ��������� ����� ����������).
  • 2048 � 3-�� ������� (��� ������ ����������� ����� ������������, ������� ����� ����������; �������������� � ������ ����������� �������).
  • 65536 � 4-�� ������� (����������� �������, ������, ������ ��������� ���������, �������� ����� ������������).

5 � 6 ������ �� ������������ � Unicode. [�������� 4]

������������ � ����������

����� ������������

  • UTF-8 �������� ������������ ���������� ��� XML ������, ������� �� ������� ������� ������� ������������������ ������ ��� ��������� ������ ���������.
  • UTF-8 � UTF-16 �������� ������������ ����������� Unicode ������ � HTML ����������, ������ UTF-8 ��������� ���������������� � ����� ������������ ����������.
  • ������ ������� UTF-8 ����� ���� ����� � ������� ������������� ������� ������������� ����������. ���������� UTF-8 �� ����� ��������� �������� ������� ����, � ���� ����, ��� ����� ���� ���� �������� ���������� UTF-8 ����� 11,7%, � ����������� ����� ������� ������ ��������� � ������ ����� ������������������. ����� �������, ������ ������������, ��� ����� � ����� ������ ��������� (��������, ISO/IEC 8859-1) �������� ���������� UTF-8 �������. ��� ������������, ������� �� �������� ����������� ������ ���������, � ��� ��������� ������������ UTF-8 ������ � ����������� ����������� ��� ������������� ��������� ���������� � ���, ����� ��������� ������������, �������� ������, ������� ���������� ��� ������� ������� ��������� �������, ��� ��� ��������� ������, ������� ���������� �� ����������� ��������� ���� �������.
  • ���������� ������ UTF-8 ����� ��� ����� ���� unsigned byte ���� ����� �� �����, ��� � ���������� ���� ����� � ������������������ �������.
  • UTF-8 «���������» ��� ASCII. ��� ���������, ������ ��������� �� ���������� ����� ����� ������ ���� ��������� ��� UTF-8, � ��������� � ������ �������� ������ ����� ���������� � ������ ����� ����������� ������. ���� � ������, �� ����������� � ��������, ������� ASCII ��������� ���������� ��� XML ����������, ��� ��� �������� XML ������� �� ���, � ������� �� ����� ���������� ���������� ����.
  • UTF-8 ���������� ���� � ��������� 0-127 ������ ��� �������� ASCII. ��� ��������, ��� UTF-8 �������� ����������� ACSIII � ����� ���� ���������� �����������, ������������� 7-������ ������� � ������������� �����, �� ����������� � ASCII. � �����, ������ � ����������� ������ ����������������, ������� ���������� ������������ �������, ����� ����� ������ ���������. ��� ����� ������ ��������� ��������� ������������ ����������� ��� ������������������ �������������, ��� ��� ���������� �������� ������ �� �����, � ������� ����� ����������������� ������������.
  • UTF-8 ���������� ���� � ��������� 0-127 ������ ��� �������� ASCII. ��� ��������, ��� UTF-8 �������� ����������� ACSIII � ����� ���� ���������� �����������, ������������� 7-������ ������� � ������������� �����, �� ����������� � ASCII. � �����, ������ � ����������� ������ ����������������, ������� ���������� ������������ �������, ����� ����� ������ ���������. ��� ����� ������ ��������� ��������� ������������ ����������� ��� ������������������ �������������, ��� ��� ���������� �������� ������ �� �����, � ������� ����� ����������������� ������������. ��� ���������, � Shift-JIS � ������ ������ ������������� ����������, ���� ������� �������� ������ ASCII �������, ����� ����� �������� ������ �������������� �������; ���� 0x5C, � �������, ����� ���� ������ �������������� �������, �� � ��������� ������ ��������� ����� ���������������� ��� ����������� �������� ����� ���������������� ��� ��� �������� ���� («\») � ������������ ���, ��� ������ ������������������ ������, ����������� ����������� ����������� �����. � ��� ������������� UTF-16 ��� ���������� ������� ������������ �����������, ���������� ���������� ���� ���, ���������� �� ��������. ��� �������� �����, ��������� ����������� ����������� �� ������ UTF-16, ����� ��� Excel, ��������������� � UTF-8 ��������������� � �������������� ������������ � �������� � ��������� ��������, ��� �������� ������������� ������������� ������� ������� ��� ������������������� ������.

� ��������� � ������������� �����������.

������������

  • UTF-8 ����� ������������ ����� Unicode ������, ��� ��������� �������� ������������� ������� ������� ���, � �������, ������� ����������� ����, ����� ����� �������� ������������ � ������ ������, � ����� ��������� ������������ ����� � ��������� ������� ������������. �� ������ ����� ������� ������������ ������ ����� ����-�������� ���������, ������� ���� ������ � ���������� ������ ������������ ��� �� ����������� �����������.
  • ����������� ����� 0xFE � 0xFF, ������� ���������� UTF-8 ����� ������� �� ��������� � �������� ������ ������������������ UTF-16 � ������� �� ����� ���� ��������� � ���. ���������� 0xFF ����� ��������� �������� ������������� �������� ����� ����� ��� ������������� Telnet � FTP ����������.

����������

  • ����� � UTF-8 �������� ������ �����, ��� ������������������ ����-�������� ���������, �� ����������� �������, ������������ ������ ASCII. � ������ �������, �������������� 8-������ ������ �������� � ������������ ��������� � ������� ����� ������, ������� UTF-8 ����� �������� � ��� ���� ������� ������. ��� ��������� ��������� �������, ������� ����� �������� � ��� ���� ������ �����. ���������� �������, ����� ���� ���� ������������� � ������� Unicode ������, ���������� � ����� ��� ������ ����� � UTF-8. ��� �������� � ���������� � ����� � ��������� ������ �������.
  • ���� �����������, ��� ��� ������������� UTF-8 ������ ����� ��������� ��� �������� ���������� �������. ��� �������� � ������� ��������� ������������ ������ ����������� ������������ � �������� �� ������. ������� ���������� ����� ������ ������������ ���������� ������ � ����� ������, ��� ����������� �������� ������ ��� UTF-8, �� ��� ������ � ������� ����������� �������� ����� ���� ����������.
  • ���� ������� ����� ����� ���������� ������, ��������� �������������� ����� �� ��� ������. � ����� � ������������� ����� ASCII, ��� ������� ������������ ��� ������� ��� ������, ��� ����� ��������� ������. ������, ������� ������� �����, ��������� ����� ������ ��������, ����������� ���������� ����� ���� ����� � ���������� ������������ ��� UTF-8. ����� ������ � ������� ������ ����� �����������, ��������, ���������.
  • ��������� ����������� �����������, ����� ��� ��������� ���������, ��������� ��������� ���������� ��� ���������������� UTF-8, ���� ����� �� ���������� � ����� ������� ������ � ����� ��������� ����� �������. ��� �������� � ������������� ������������ UTF-8 � ����� ����� ������ ����������� ������������, ������� ����� ������������ ASCII-�������� ���������, �� �� ����� ������������ ����� ������� ������. ���, ������, �� �������� ����� UTF-8, � �������� ����������� ����������.

��������� � ������� �������������� �����������

������������

  • UTF-8 ����� ���������� ����� ������ Unicode. ����� � ������ �������� ����� ������������ ���������, ��� ������������� ������ ���������� ������� �������� ��� ������. ��������, ��������� � �������� ����� �������������� (� ��� �� ������) ��� ����������� ����� ��� ������ �������� ��� ������������ ���������.
  • UTF-8 �������� ����������������������: ������� �������� ����� ���������������� ����� ������������ ��� ������ ������������ ������� �������� � ����� �����������. ���� ����� �������� ��-�� ������ ��� �����������, ������ ����� ����� ��������� �������������� ������ � ����������� ���������. ���� ���� ������������� ��������� ������ ��� ������������ ��������� ����, ����� ����� ����� ���������� ���������� ������. ������ ������������ ��������� ������� ������� ������������������.�������� ������ ������, ��������������� �� ������, ����� ������������ � ������� UTF-8, ��������� ������������������ ������ ��� ������� �� ����� ����������� ���-���� ���. ��������� ������ ��������� ���������� ����� (����� ��� Shift JIS) �� �������� ���� ���������, � ������� ��������� ������������� ����� ���� �������� ��������. � Shift JIS �������� ���� ������� � ������ ���� ���������� ������� ����� ��������� ��� ������ ����������� ������, ��� �� ����� ��������� � UTF-8.

  • ���������� ��� ����������� � �������������� ������� �������� � ������. UTF-8 �� ������� ����� ��������� �������������� ��������, ����� ��� ��������� ��� ������� (� ������� �� ���������� ��������� UTF-1).

����������

  • UTF-8 ������ ������ �����, ��� ������������� ���������, ��������������� ��� ����������� ������. �������� ��������� � ����������������� ������� ������ ���������� ��� ����� �� ������, �� ����� �� ��� ����� �� ������ � UTF-8.

��������� � UTF-16

������������

  • �������� ��������� � UTF-8 ������������ ��������� ��������� � ����������, � ����� �� ����� ������ ������ � �������� ��� �������������� �� �������� ��������� � UTF-8. UTF-16 ����������� 16-���������� ��������� ����, � �������������� � UTF-16 ��� ���������� ������������� � ������������� ����������� �� ������ ASCII (��������, � Windows) �������, ����� ������ API � ��������� ������, ������� ��������� ������, ���������� ������������, ������ ��������� �������� ������, � ������ ������ ��������� UTF-16.
  • �����, �������������� � UTF-8, ����� ������, ��� ��� �� �����, �������������� � UTF-16, ���� ����� ����� ���� U + 0080 ������, ��� � ��������� U + 0800..U + FFFF. ��� ��������� �� ���� ����������� ����������� ������.
    • ����������� ��������������� ��������� �������� (������� HTML) �������� ������� ����� �������� ASCII ��� ��������������, ������� ������ ������ ����������� ����������� �� ��������� � UTF-16, ���� ���� ���� � �������� ���������� 3-������� ������� � UTF -8.
  • ����������� ������� ����� � �������� ��������������� ��� ������ ������. ������ UTF-16 ������ ������������ ���� ������ ��� ������ ������� ����:
    • ������� ���� ���� ������ ���������� ��������� � ������ ���� ������ � ��������� UTF-16, ��������, � ������ ������� ������.
    • ������� ���� ���� ������ ���������� ��������� � ������ ���� ������ � ��������� UTF-16, ��������, � ������ ������� ������.

����������

  • ������� U + 0800 ����� U + FFFF ���������� ��� ����� � UTF-8, �� ������ ��� � UTF-16. � ���������� ����� � (��������) ���������, �������� ��� ���������� ������ ������ ����� � UTF-8, ���� �� ������, ��� �������� ASCII. ��� ��������, ����� ������ � �������� ������� �� ������ �����, �� ����������� �� �������, � ������� �������� ���������� ������� � ASCII, ����� � ����� ����������. [�������� 5]

����� ������� ��������

� ��������� ������� ����������� ������������� ������� ������ UTF-8 (��������� ������ ��� �������) � ������� ������� ��������. ������� �������� (�� 0_ �� 7_ ) ������������� ��� ������, ������������ ������ � ����������� �����, ������� ��� �������� ��� ������� ������� ��������; ������ �������� — ��� ������ ����������� (�� 8_ �� B_ ) � (��������) ������� ������ (�� C_ �� F_ ), � ���������� ����� � ������� ����.

UTF-8

_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_ NUL
0000
SOH
0001
1
STX
0002
2
ETX
0003
3
EOT
0004
4
ENQ
0005
5
ACK
0006
6
BEL
0007
7
BS
0008
8
HT
0009
9
LF
000A
10
VT
000B
11
FF
000C
12
CR
000D
13
SO
000E
14
SI
000F
15
1_ DLE
0010
16
DC1
0011
17
DC2
0012
18
DC3
0013
19
DC4
0014
20
NAK
0015
21
SYN
0016
22
ETB
0017
23
CAN
0018
24
EM
0019
25
SUB
001A
26
ESC
001B
27
FS
001C
28
GS
001D
29
RS
001E
30
US
001F
31
2_ SP
0020
32
!
0021
33
»
0022
34
#
0023
35
$
0024
36
%
0025
37
&
0026
38

0027
39
(
0028
40
)
0029
41
*
002A
42
+
002B
43
,
002C
44

002D
45
.
002E
46
/
002F
47
3_ 0
0030
48
1
0031
49
2
0032
50
3
0033
51
4
0034
52
5
0035
53
6
0036
54
7
0037
55
8
0038
56
9
0039
57
:
003A
58
;
003B
59
003C
60
=
003D
61
>
003E
62
?
003F
63
4_ @
0040
64
A
0041
65
B
0042
66
C
0043
67
D
0044
68
E
0045
69
F
0046
70
G
0047
71
H
0048
72
I
0049
73
J
004A
74
K
004B
75
L
004C
76
M
004D
77
N
004E
78
O
004F
79
5_ P
0050
80
Q
0051
81
R
0052
82
S
0053
83
T
0054
84
U
0055
85
V
0056
86
W
0057
87
X
0058
88
Y
0059
89
Z
005A
90
[
005B
91
\
005C
92
]
005D
93
^
005E
94
_
005F
95
6_ `
0060
96
a
0061
97
b
0062
98
c
0063
99
d
0064
100
e
0065
101
f
0066
102
g
0067
103
h
0068
104
i
0069
105
j
006A
106
k
006B
107
l
006C
108
m
006D
109
n
006E
110
o
006F
111
7_ p
0070
112
q
0071
113
r
0072
114
s
0073
115
t
0074
116
u
0075
117
v
0076
118
w
0077
119
x
0078
120
y
0079
121
z
007A
122
<
007B
123
|
007C
124
>
007D
125

007E
126

DEL
007F
127
8_
+00
128

+01
129

+02
130

+03
131

+04
132

+05
133

+06
134

+07
135

+08
136

+09
137

+0A
138

+0B
139

+0C
140

+0D
141

+0E
142

+0F
143
9_
+10
144

+11
145

+12
146

+13
147

+14
148

+15
149

+16
150

+17
151

+18
152

+19
153

+1A
154

+1B
155

+1C
156

+1D
157

+1E
158

+1F
159
A_
+20
160

+21
161

+22
162

+23
163

+24
164

+25
165

+26
166

+27
167

+28
168

+29
169

+2A
170

+2B
171

+2C
172

+2D
173

+2E
174

+2F
175
B_
+30
176

+31
177

+32
178

+33
179

+34
180

+35
181

+36
182

+37
183

+38
184

+39
185

+3A
186

+3B
187

+3C
188

+3D
189

+3E
190

+3F
191
2-byte
C_
0000
192
0040
193
Latin
0080
194
Latin
00C0
195
Latin
0100
196
Latin
0140
197
Latin
0180
198
Latin
01C0
199
Latin
0200
200
IPA
0240
201
IPA
0280
202
IPA
02C0
203
accents
0300
204
accents
0340
205
Greek
0380
206
Greek
03C0
207
2-byte
D_
Cyril
0400
208
Cyril
0440
209
Cyril
0480
210
Cyril
04C0
211
Cyril
0500
212
Armeni
0540
213
Hebrew
0580
214
Hebrew
05C0
215
Arabic
0600
216
Arabic
0640
217
Arabic
0680
218
Arabic
06C0
219
Syriac
0700
220
Arabic
0740
221
Thaana
0780
222
N’Ko
07C0
223
3-byte
E_
Indic
0800*
224
Misc.
1000
225
Symbol
2000
226
Kana, CJK
3000
227
CJK
4000
228
CJK
5000
229
CJK
6000
230
CJK
7000
231
CJK
8000
232
CJK
9000
233
Asian
A000
234
Hangul
B000
235
Hangul
C000
236
Hangul
D000
237
PUA
E000
238
Forms
F000
239
4?byte
F_
SMP, SIP
10000*
240
40000
241
80000
242
SSP, SPUA
C0000
243
SPUA-B
100000
244
140000
245
180000
246
1C0000
247
5-byte
200000*
248
5-byte
1000000
249
5-byte
2000000
250
5-byte
3000000
251
6-byte
4000000*
252
6-byte
40000000
253

254

255

��������� ������ � ������� ������ �������� ������� �����������. ����������������� �����, ��������� ����� ����� �+�, ������������ ����� �������� ����� ���, ������� ��� ���������.

����� ������ — ��� ������� ����� ��� ������������������ �� ���������� ������, ����� �������� ����� �� ������. ����� ���������� ����� Unicode, �������������� ��������������������, ������������� � ����� �����, � ����������������� ������� �����, ���������� � ������, �������� ����� ������� ���������� ���������, �������������� � �������������� ����� �������� �����.

������� ������ ������� �� ������ ���������� � �������������� ������������������ UTF-8. ������ ��� (C0 � C1) ����� �������������� ������ ��� ������������� ������������ ������������ �������� ASCII (�� ����, ������� ������������ 7-������ �������� ASCII ����� 0 � 127, ��������� ��� ����� ������ ������, ��. ����). ���������� ������� ������ ��������� ������� ����� �������������������, ������� ����� ������ ���������� �����, ����������� ������ 0x10FFFF � �������, ��� ������� ����� ������� �� �������������� � �������� ������� ��� 31 ���� (FE � FF).

������� ������ �������� �������� ������� ��� ������������������ �� ���������� ������, �� ������� ��������� ���������, �� �� ��� ��������� ������������������ �����������. E0 � F0 ����� �������� ���������� ���������, � ���� ������ ������������ ����� ������ ��������������� ������� �����, ���������� ���������� �*�. F4 ����� ��������� ������� ����� ����� 0x10FFFF, ������� �������� �������������. ED ����� ������ ����������� ����������� ��������, ������� �� ����� ���� ������������ � UTF-16 � ����� ���������������.

����������� � �������������

�����������— ��� ������� ������������ ������������� ������������� ����������,������� �� ����� ����� ������������� ���������� � ������, ����� ������� ��� ��������, �������� ��� ���������.�� ���� ����� ������, ������� �� ����� ��� ������, ��� ���������� � ���������� — ����� ���� ����� ����� (����� ����� � ������). ������ ��� ���� � ������������ �� ���������� � ����������. � ����� �������� ��������� ���� ��������� ��������, ��������� ����������� � ������� ������� (��� ����� ���������) ��� ������� � ��������������� ������� ���. [�������� 6]

UTF-32LE � UTF-8

������ ������ ��������������� ��� ����������� � ��������������.

��� ����� ������� ���, ����� �� ������ ����� ���� ���� �������� ��� ��� �����������, ��� � ��������������. �� ��� ����� ��� ��� ���� ����� ��������� ������ ������ ���� ������������ �� ������ ������� ��� ������ ��������� ����������� ���. ����� �������� ��� ���������� � ������� �������� ������������������� �������������� �� 6 ��� (� ��� ���������� ���������� ������). ��� ���� ������� ���� ������������������ ���� ����� � ������ ������ (����� � �������� Big-Endian). [�������� 7]

�����������

������� �������� �����:

  • ������ ������ ���������� � Unicode.
  • ��������� �� ������ ��������� ������.
  • ���� ��� ������� ������ 128, �� � ���������� ��������� ��� � ���������� ����.
  • ���� ��� ������� ������ 2048, �� ����� ��������� 6 ��� � ������ 5 ��� ���� �������. � ������ 5 ����� ��������� 0xC0 � �������� ������ ���� ������������������, � � ��������� 6 ����� ��������� 0x80 � �������� ������ ����. ������������� � ��������� � ����������.
  • ������� ������� ����� ���������� � ��� ������� �����, �� ���� ������ �� ��������� U+FFFF �������� ����� ���� � UTF-16 �����������.

Function EncodeUTF8(s)

�������������

������������� — �������������� ������������� ���������� � ��������, ��������� ��� ����������������� ������������� ���.

  • ���� ������ ������ ���� 11xxxxxx
  • ������� ��� ����������� ����� ���� 10xxxxxx
  • ���� ������������������ �� ���� ���� � ������ ���� ���� 110xxxxx, �� �������� ��������� � ����������, ������� ������ ���� �� 0x40.
  • ���������� ��� ����� ������� �������������������.
  • �������� ��� ������������������ �� ������ ������ Unicode. [�������� 8]

Function DecodeUTF8(s)

������ �����������/�������������

������� ���� ��������� ��� ������� ���������� � ������� ������������� ������������� �����. ��� �������� ����� �������� ������ ������ ���� ��, ��� ������� �������.� ���� ��� ���������� �������������� � ��������� Windows-1251, � �� UTF-8:

� §� µ� �»� ѕ� І� µ� �» СЃ� µ� �»-С‡� °СЃ С�»� І� ё� ґ� ёС‚ � �»� ёС€СЊ С‚� ѕ, чт� ѕ � ѕ� ¶� ё� ґ� °� µС‚ С�»� І� ё� ґ� µС‚СЊ.

������������� �� ������ ������������ ��������� � utf8

������ output.txt ����� �� ��� input.txt?

16.10.2020, 23:37

�� ��������� * � UTF8 � ������� � *
������ �����. ���������(*) ��� ���������, ������� ��� �� ��������. ���� ��� � ���. ���� ����.

�������� ��������� ��������� ��������� ������ � ����� ��������� � ������ �� ����� (CP1251, UTF8, KOIR8)
�������� ��������� ��������� ��������� ������ � ����� ��������� � ������ �� ����� (����� ���������.

������������� UTF8
� ����� ��������� UTF8 ��������� �����. ������ ���� ��������� ������������. ����� �� 0 �� 127. 7.

��������� win1251-UTF8
���������� ��� ����������� �� ��������? � ������� ���� $mytext=’Яндекс ‘; //������ ��.

������� ��������� � Win1251/UTF8
������ �������� «������» ������� ����� ���������� «???????�??N?» ��� �������� ���������, �����.

������������� ISO-8859-1 � ����������� � UTF-8 ����� �������� MySQL

� ������� �������, ���� � ����� ��� ���������.

� ���� ���� ���� ISO-8859-1 (�������� �����). ��� MySQL db ��������� � ��������� utf-8. ��� ������ � ���� ������������� ���� � ������������ ������� UTF-8, ������ ��� � ���� ��������� ��� � ���� �������. ��������, ������� � ����������� ������ ������ ����� file.txtfile_new.txt, ���������.

� ����� � ��� �������. ����� � ������ ���������� MySQL � ������ ������ �� ��������� ��������, ����� ��� ������ ���� �������� ��� utf-8.

����� ����� � ����� ������ �������� file_new.txt � ���� ������ ������ � MySQL. ��� ���������� ������, ����� �������� ������� � ��������� utf-8 MySQL? ��� ��� �� ������� �����-���� ������ �����?

������, ����� �������� ��� ������. � ����� ��������� ‘SET NAMES «utf8″» . �� ���������� ������ ���� ��� �������������� ����� , ����� � ������������ ��� ����������� ���������

� ������ �������, ����� � ������������

�� ������� ��������, �� ������ ������, �������������� � utf-8 �� ���� ������, ��������������. ������� � �����������, ��� ������ �� ����� file.txt ��-�������� �� �������� ��������� utf-8. ����� �� ���-������ ���������, ������?

PS: ������ ��� � �������� ������ ������, � ������� ������ � �������� ����.txt����� file.txt.tmp. ����� � �������� ���� ����, ����� �������� ����_new.txt. � �� ����, �������� �� �������� �������� ��������� �����.

� ����������� ���� ������� � ���� ���� utf-8 �������������� ���������� ������, ������� �����, �� ������ ���������������� ����� ������� � «�������������� �����». ��� ��� ��� ��� ��������.

������: �������.

������, ������, ������� ��� ��������� ���� ����������. ���� ������� ��������� utf-8 �� ���� �������������. ��� ������� ���� �����������. �����������, ������ ����� ������, ������� ��� �� �������� �����, ��� � ISO-8859-1. ������� �������� ������ ���� �� ���. ���������� �� ����, ��� � ������.

Hexeditors ������������� �������. �� � ����� � ������ ����������� ����������� �����, ����� �������������, ���� �� ��� �������������� ������ utf-8. �����������, ������ python � ����������� �������� ������� �� �� �����. ��� ��� ��� � �������. :)

���������� ��� ������ �����:

��������� UTF-8 �������� 8-��������� ����������, ������������ ������������ �� ���������, � ����� ������ U + FEFF � �������������� ������ (���� ���� �� ������ ������) �������������� ��� �������������� �������� ��������������.

��� ������� ���������� ���������� ���������� ����������, ����� ��������� �������������� ��� ����������� ������. ������ ����������� charmap ����� ������������ ����� ��������� ������������������ ������. ������ ��� ���������� � UTF-8, ��������� ������������������ ������ UTF-8 ����� ���������, ������� �� ��������� ��������� ������������ �������� ������������������. ����� �������� ����������, � ������� ����� ���� ���������� ��������� UTF-8, Microsoft �������� ������� UTF-8 (������� Python 2.5 �������� «utf-8-sig») ��� ����� ��������� «�������»: ����� ���, ��� ����� �� �������� ������� ����� ������� � ����, ������������ ��������� UTF-8 (������� �������� ��� ������������������ ������: 0xef, 0xbb, 0xbf). ��� ������������, ��� ����� �������������� charmap ���� ���������� � ���� �������� ������ (�������, ��������, ����� ������������ ��

��������� ����� ������ � � ���������� ���������� �������� �������� �������� �������� �������� ����� � ���-8859-1), ��� ����������� ����������� ����, ��� ����������� utf-8-sig ����� ��������� ������� �� ������������������ ������. ������� ����� ������������ �� ������������, ����� ���������� ������� ������, ������������ ��� ��������� ������������������ ������, �� ��� �������, ������� �������� ������� ���������. ��� ����������� ����� utf-8-sig ����� ���������� 0xef, 0xbb, 0xbf � �������� ������ ���� ������ � ����. ��� ������������� utf-8-sig ��������� ��� ��� �����, ���� ��� ����� ������������ ��� ������ ��� ����� � �����. � UTF-8 ������������� ������������ �� ������������� �, ��� �������, ������� ��������.

�������������:

������: «Hello World».encode(‘utf-8′) ���� b’Hello World’ � «Hello World».encode(‘utf-8-sig’) ���� b’\xef\xbb\xbfHello World’ �������������� ���������:

��� ����������� ����� utf-8-sig ����� ���������� 0xef, 0xbb, 0xbf � �������� ������ ���� ������ � ����. ��� ������������� utf-8-sig ��������� ��� ��� �����, ���� ��� ����� ������������ ��� ������ ��� ����� � �����.

��������: � ������ ����������� ������� �� ����, ��� ��� ����������� ���� � ��������� utf-8. ��� ��������:

�� ������ ������ ������� ���������� ���������:

��������� UTF � �������� �������� ������ � ���������

����� ��������� ������������� �������, ������� ��� ���� �������� �� ���������� �����. ����� ������, ������� ��������� � ��������� � ���� ������ �� �����. ��, ����� �� ���������� �������, � ���������� ������. �� ����, ��������� ������������ ������ ���������. ��� ��������� ���� ����� ���������� �������� ��������� utf :

������� � ����������

��������, �� �������� �������� ��� ����, ��� �������� ����� ����������� �� ��������� ���-������������ �������� �����. �������, ������ � ���� ������������ ����� ���������, �� ��������� �����-�� ������� ��� ����� ��� ���� ���.

�� �������� ������ � �������� ������� ���������� ������ �����, ��� � ��� �� ������. ��� �������� ������ � �������� ��� ������������ �������� ������� ����������, ��������� ���� �� 0 � 1.

��������� ������ �������� ������ � ����������� ������������ �������� ��� ����������� �� ���������� ������� � ������� ��������, ����������������� html . ��� ��� � ���������� ����� ����������, ����� ������� ������� � ���-�������� �������� � ���� ��������� ������ � ������ ����������. ����� ������������ �� ����� �������� ����� �� �����, � �����-�� ���������� ( ���������� ) �������:

���� ����� ����� ����� ���� �������� ��������� ���-�������� �� ��������� utf8. ���� ��� �������� �������� ���������������� �� ���� ���������.

��������� UTF-8

�������� ���������������� ����� ������������������� � ������������ ��������� ���������. ���������������� ��� � ������������ ������ �������������� ������� � ��� � Unicode Transformation Format �.

�������� ��� ���������� ��� � 1992 ����. � ��������� ����� �� ������ ����������� �� ������ �� ��������� �������, �� � �� ���������� ������ ( ��������� ������ � ������������ ������� ). �������� ������������ ��������� �������� �� ������������� � ASCII:

ASCII (�American standard code for information interchange�) ��� ���� (�� ����� ������) ��������� ������������� ��������� ������. � �� ������� �������� �������� �������� � ���������� ������ ������ � ������� ����� � ����������������� ������� ����������.

��� ������������� UTF-8 ��� �������� ������ � ������� ASCII ������������ 7 ������ �����. ��������� ( ������� ) ������ ��� ������ � ������ � ( ����������� ��������������� ������ ). ��� ��� ������������� ��������� ��� ��������� �������� ����������� ��������� ����� ��������� ������.

��� ��� ����������, ����� ��� ����������� ����������� ������ ���������� ���� �������� ��������� ���������. ����������, ��� ��� ����� ������� � ��������� �����������, ����������� ��� ���������� ���-������������.

��� ���������� ��������� � HTML � PHP

��� ��������� utf 8 ��������� � html ������������ ����������� ��� . �� ���������� � ���� � ����� ��������� �������� ���������.

�������� ������������ ��� �������� � �������� ����������, ��������������� ��� ��������� � �����������. ����� �� ��������� ���� �������� charset . �� ������ ��� ��������� ��������� ���-��������. ������ �������������:

����� ����� ���������� ��������� ��������� ��������� ��������. ��������, ������. ��� ����� ����� ������������ ������� charset , ��������� �������� ��������� ������ ���������:

����� ����� ����� ����������� �������� ��������������� ���������� http , ������� ���������� ������ � ������� �� ������ �� �������� � �������. � ����� ������ ��������� ����� utf 8 , ���������� ����� ���������, ����� ������������ ��� ���������, �������� ������ ���-��������.

������ �� ������� �������� �� �������� ������������, � ����������� ��������� ��������� ������������� ��������� ������ ����������������. ���� ����� ��� ���������� ������ ��������� PHP . ������� ����� ����� � ��� ���������, ����������� ��� ���� �������� ��������� ������������ ���-��������.

��� ��������� � ����������� �������� ��������� ������������ ������� header() . �� ���������:

����� ��������� ������ � php ��������� utf 8 , ����� ������� header() � ���� ������ ���������� ���� ���� ����� html .

���������� ��������� ���������

��������� ���� ������ ����� �������������� ��� ��������� ���-������� ��� ��������� ������. �� ��� ������, ���� �� ������ ���� � ��������, ��������� �� ���������� ����� ������� � ������� ��������? ������� ����������, ��� ���������� ��������� utf 8 ��� ����� �����.

��� ����� ����� ������� ��������� � �������������� ���� ������������ �������. �� ����� �������� .htaccess . ������� ��� ����� ������� � ����� ��������� ���������, � ����� �������� ���� ������:

� �������� ����� ����������� ������� ��������� ��������� ����� ����������� ������ �� ������ ������ ���������� �������. ��� ������� ����������� �� ������� Denwer , ������� �������� ������ ������������� � ����� �����.

����� �������� ��������� ���� ��������, ����������� �� ����� ������� Apache , ����� ��������������� ���������� ����������������� ����� httpd.conf . �� ��������� �� ����:

��� � � ���������� �������, � ��� ����� �������� �������� AddDefaultCharset �� ������. � ����� ������ ��� utf-8 :

��������� ��������� ���� ������

��������� ��������� ���������� �� ������� MySQL . ��� ��� ��� ���� �� ����� �������������� � ���������������� ����, ����������� � �������������. ��� ��������� ����� ���������� � ����� my.ini . � ������� �� ��������� �� ����:

����� ����� �������� �������� ���������� ����� �� utf-8 :

  • default-character-set ;
  • character-set-server ;
  • init-connect = �set names� ;
  • default-character-set .

� ����� �������� ������ skip-character-set-client-handshake :

�������� ��������� ����� ������ �� ������ ��� ���� ��� ������ �� �������, �� � ��� �������� ������ � php ���� mysql . ������� ��� ����� ����� ���������������� ��������� �������� PHPMyAdmin .

������� ������, ����� ��������� ����������� �� ��������� � ����� ���� ������. ��� ����� ������ ������ SQL :

��� ����� ����� �� ������ ��������:

���� �����-���� �������� ��� �� �������������, �� ����� �� ��������. ������������� ��� ����� �������� � ���� ������� ����:

� ���������� �� ������� ����� �������� ���������� character_set_connection , character_set_results � character_set_client.

� ���������, �� ��� ��� ������ ������� � ���������� ��������� � �������� Excel . ��� ����� �������� ��������������� ��������� ���������� ��� ��������������� ������. ��� ���������� ������ � ������� ���������� �������.

�� ����������� ��� �������� ������� ��������� ���-���������� �� ��������� utf . ��������, ��� ���� �������� ������� ��� �� ������ ������� ���������� ��������� ������, �� � � ���������� � ���������� ������ �� �����.

Илон Маск рекомендует:  Шаблон сайта погода HTML, CSS, 1 страница
Понравилась статья? Поделиться с друзьями:
Кодинг, CSS и SQL