mwgamera has no life


UTF-8 character regexp

Wpis na 0. poziomie, wysłany 2006-08-22 22:03:43

(?:^|(?<=[\x00-\xBF]))([\x80-\xFF][\x80-\xBF]{1,5}|[\x00-\x7F])

Z potrzeby…
Zakładając, że wejście jest poprawnym UTF-8, to wyrażenie pasuje do dokładnie jednego znaku (nie bajta czy oktetu).
Ten regexp nie nadaje sie do walidacji, byłby dużo dłuższy :P


Komentarze do notki UTF-8 character regexp

  1. 2006-08-22 22:04:20

    aha?

Dodaj komentarz:

Komentarze można formatować przy użyciu Markdown.