Cóż to za przedziwne kodowanie?

Wszystko Off Topic
tadzik
Beginner
Posty: 183
Rejestracja: 29 grudnia 2007, 20:36
Lokalizacja: Warszawa/Izabelin

CóŻ to za przedziwne kodowanie?

Post autor: tadzik »

Witam,
Ostatnia sytuacja (usunięcie darmowych kont hostingowych na freens.pl) zmusiła mnie do zmiany serwera. Toteż zabrałem się za eksport bazy danych. Wg phpmyadmin była oczywiście w utf-8, co ciekawe wg mojego systemu też:
tadzik@tadzik ~ $ file sql.sql
sql.sql: UTF-8 Unicode Pascal program text, with very long lines, with LF, NEL line terminators
A jak jest naprawdę? A tak:
Fakt, super-express, telewizja. Co \u0139\u0082\u00c4\u0085czy te 3 rzeczy? S\u00c4\u0085 dla idiot\u0102\u0142w? Nie, nie o to chodzi\u0139\u0082o. Z\u0139\u017aeraj\u00c4\u0085 czas i pieni\u00c4\u0085dze? Te\u0139\u017a fakt, ale nie o to chodzi. S\u00c4\u0085 natomiast pewnego rodzaju po\u0139\u017aywk\u00c4\u0085 dla ludzi z nich korzystaj\u00c4\u0085cych. Jakiego rodzaju? Ano dostarczaj\u00c4\u0085 codziennej dawki strachu, smutku i przera\u0139\u017aenia.
Wie ktoś może co to za kodowanie i jak skonwertuję to świństwo do unicode?
Pozdrawiam
wieszti
Beginner
Posty: 143
Rejestracja: 31 stycznia 2009, 18:28

Post autor: wieszti »

Spróbuj się tym pobawić http://krzaki.blizinski.pl/ ale u Ciebie rzeczywiście to dziwnie wygląda
tadzik
Beginner
Posty: 183
Rejestracja: 29 grudnia 2007, 20:36
Lokalizacja: Warszawa/Izabelin

Post autor: tadzik »

wieszti - próbowałem, skrypt podał jakieś dziwne wyniki i samemu źle przetłumaczył : /
fnmirk
Senior Member
Posty: 8321
Rejestracja: 03 grudnia 2007, 06:37

Post autor: fnmirk »

tadzik, to nie jest kwestia kodowania. To raczej kwestia ,,szyfrowania'' lub może nawet ,,mime''.
tadzik
Beginner
Posty: 183
Rejestracja: 29 grudnia 2007, 20:36
Lokalizacja: Warszawa/Izabelin

Post autor: tadzik »

@fnmirk, możesz rozwinąć? Jak się tego pozbyć, jak to "odkodować"?
Awatar użytkownika
lis6502
Member
Posty: 1798
Rejestracja: 05 listopada 2008, 20:14
Lokalizacja: Miasto Szybowców

Post autor: lis6502 »

Według mnie to jest Unicode, ale utf16 dwubajtowe znaki. Spróbuj to właśnie tak interpretować.
tadzik
Beginner
Posty: 183
Rejestracja: 29 grudnia 2007, 20:36
Lokalizacja: Warszawa/Izabelin

Post autor: tadzik »

Po konwersji iconv z UTF16 na UTF8 wychodzą cudowne znaczki, na oko chińskie.
Chyba skończy się na przepisaniu bazy ręcznie : /
Awatar użytkownika
lis6502
Member
Posty: 1798
Rejestracja: 05 listopada 2008, 20:14
Lokalizacja: Miasto Szybowców

Post autor: lis6502 »

Takie coś wykopałem.
Może Ty coś więcej z tego zrozumiesz niż ja.
http://dev.eclipse.org/newslists/news.e ... 32170.html
Ostatnią dechą ratunku będzie sed '/s\\u0139\\u0082/ł/g' czy podobnie :p .
snah
Beginner
Posty: 103
Rejestracja: 19 lutego 2008, 09:09

Post autor: snah »

lis6502 pisze:Ostatnią dechą ratunku będzie sed '/s\\u0139\\u0082/ł/g' czy podobnie :p .
Ile w końcu mamy polskich znaków? "ążśźęćńłó" to plus wielkie litery 18. Rozwiązanie zaproponowane przez lis6502 jest prawdopodobnie całkiem szybkie.

Co prawda wypowiedź fnmirka też brzmi logicznie, ale nie znam się na tym, więc nie pomogę.
fnmirk
Senior Member
Posty: 8321
Rejestracja: 03 grudnia 2007, 06:37

Post autor: fnmirk »

S\u00c4\u0085 dla idiot\u0102\u0142w?
Na podstawie tego fragmentu mamy dwie polskie litery:
\u00c4\u0085 --- ą
\u0102\u0142 --- ó
Ano dostarczaj\u00c4\u0085 codziennej dawki strachu, smutku i przera\u0139\u017aenia.
Ten fragment potwierdza literę ,,ą'' oraz pozwala rozpoznać inną:
\u0139\u017a --- ż
Można rozpoznać wszystkie litery i napisać skrypt, który to naprawi.

Wpisanie tych znaków w wyszukiwarkę internetową, prowadzi na strony głównie japońskie i chińskie.
ODPOWIEDZ