Strona 1 z 1

CóŻ to za przedziwne kodowanie?

: 03 lutego 2009, 18:39
autor: tadzik
Witam,
Ostatnia sytuacja (usunięcie darmowych kont hostingowych na freens.pl) zmusiła mnie do zmiany serwera. Toteż zabrałem się za eksport bazy danych. Wg phpmyadmin była oczywiście w utf-8, co ciekawe wg mojego systemu też:
tadzik@tadzik ~ $ file sql.sql
sql.sql: UTF-8 Unicode Pascal program text, with very long lines, with LF, NEL line terminators
A jak jest naprawdę? A tak:
Fakt, super-express, telewizja. Co \u0139\u0082\u00c4\u0085czy te 3 rzeczy? S\u00c4\u0085 dla idiot\u0102\u0142w? Nie, nie o to chodzi\u0139\u0082o. Z\u0139\u017aeraj\u00c4\u0085 czas i pieni\u00c4\u0085dze? Te\u0139\u017a fakt, ale nie o to chodzi. S\u00c4\u0085 natomiast pewnego rodzaju po\u0139\u017aywk\u00c4\u0085 dla ludzi z nich korzystaj\u00c4\u0085cych. Jakiego rodzaju? Ano dostarczaj\u00c4\u0085 codziennej dawki strachu, smutku i przera\u0139\u017aenia.
Wie ktoś może co to za kodowanie i jak skonwertuję to świństwo do unicode?
Pozdrawiam

: 03 lutego 2009, 19:37
autor: wieszti
Spróbuj się tym pobawić http://krzaki.blizinski.pl/ ale u Ciebie rzeczywiście to dziwnie wygląda

: 04 lutego 2009, 17:46
autor: tadzik
wieszti - próbowałem, skrypt podał jakieś dziwne wyniki i samemu źle przetłumaczył : /

: 05 lutego 2009, 02:30
autor: fnmirk
tadzik, to nie jest kwestia kodowania. To raczej kwestia ,,szyfrowania'' lub może nawet ,,mime''.

: 05 lutego 2009, 13:42
autor: tadzik
@fnmirk, możesz rozwinąć? Jak się tego pozbyć, jak to "odkodować"?

: 05 lutego 2009, 13:50
autor: lis6502
Według mnie to jest Unicode, ale utf16 dwubajtowe znaki. Spróbuj to właśnie tak interpretować.

: 05 lutego 2009, 17:10
autor: tadzik
Po konwersji iconv z UTF16 na UTF8 wychodzą cudowne znaczki, na oko chińskie.
Chyba skończy się na przepisaniu bazy ręcznie : /

: 05 lutego 2009, 18:04
autor: lis6502
Takie coś wykopałem.
Może Ty coś więcej z tego zrozumiesz niż ja.
http://dev.eclipse.org/newslists/news.e ... 32170.html
Ostatnią dechą ratunku będzie sed '/s\\u0139\\u0082/ł/g' czy podobnie :p .

: 05 lutego 2009, 22:57
autor: snah
lis6502 pisze:Ostatnią dechą ratunku będzie sed '/s\\u0139\\u0082/ł/g' czy podobnie :p .
Ile w końcu mamy polskich znaków? "ążśźęćńłó" to plus wielkie litery 18. Rozwiązanie zaproponowane przez lis6502 jest prawdopodobnie całkiem szybkie.

Co prawda wypowiedź fnmirka też brzmi logicznie, ale nie znam się na tym, więc nie pomogę.

: 05 lutego 2009, 23:13
autor: fnmirk
S\u00c4\u0085 dla idiot\u0102\u0142w?
Na podstawie tego fragmentu mamy dwie polskie litery:
\u00c4\u0085 --- ą
\u0102\u0142 --- ó
Ano dostarczaj\u00c4\u0085 codziennej dawki strachu, smutku i przera\u0139\u017aenia.
Ten fragment potwierdza literę ,,ą'' oraz pozwala rozpoznać inną:
\u0139\u017a --- ż
Można rozpoznać wszystkie litery i napisać skrypt, który to naprawi.

Wpisanie tych znaków w wyszukiwarkę internetową, prowadzi na strony głównie japońskie i chińskie.