OCR i Linux
-
pavbaranov
- Senior Member
- Posty: 2156
- Rejestracja: 29 lipca 2007, 18:06
OCR i Linux
Witam,
czy komukolwiek, a jeśli tak, to w jaki sposób, udało się zmusić jakikolwiek program linuksowy, który potrafiłby przetworzyć skanowany tekst polskojęzyczny (obojętnie ze skanera, z pliku we w miarę dowolnym, "cywilizowanym" formacie) i zapisać go w jakimkolwiek pliku tekstowym?
Rozwiązania z wine, a już na pewno z instalacją windowsa nie bardzo są tym, czego oczekuję.
czy komukolwiek, a jeśli tak, to w jaki sposób, udało się zmusić jakikolwiek program linuksowy, który potrafiłby przetworzyć skanowany tekst polskojęzyczny (obojętnie ze skanera, z pliku we w miarę dowolnym, "cywilizowanym" formacie) i zapisać go w jakimkolwiek pliku tekstowym?
Rozwiązania z wine, a już na pewno z instalacją windowsa nie bardzo są tym, czego oczekuję.
witam. Ja chcialem podpytac o dostepne programy do ocr. Wyprobowalem wlasnie gocr i wrazenia mam jak najbardziej zle :evil:. Probowalem strone ze spisem tresci (wiadomo duze litery, bold itp)... kicha na maksa, nawet jednego wyrazu nie zczytal, pozniej sprobowalem skan zwyklego tekstu... juz troche lepiej, zaczol jakes zbitki liter wypluwac ale w 2 na 3 kolejne wyrazy byly bledy :evil: rownie dobrze moglbym to przepisywac recznie. O polskich znakach to juz oczywiscie nie wspomne ale myslalem ze bedzie na tyle sprytny ze wstawi pokrewna litere ą->a itp, no ale to juz jest drobiazg jak dla mnie. Czy jest jakis lepszy ocr w Debianie (w Linuksie mówiąc ogólnie) czy jestesmy skazani na (tfu!) Windows w tej materii?
-
pavbaranov
- Senior Member
- Posty: 2156
- Rejestracja: 29 lipca 2007, 18:06
Nie istnieje, chyba, żaden "sprytny" OCR, który podstawia za polski znaczek odpowiednik łaciński, tyle, że bez "ogonków" itp., zwłaszcza, że OCR, jeśli się nie mylę, działają na słownikach, zatem porównują sekwencję odczytanych znaków ze słownikiem i wsadzają słowo z niego, jeśli jest podobne bądź zbliżone, nie mówiąc już o tym, że jest takie samo. Prawdopodobieństwo zatem, że posługując się OCR nieprzystosowanym do rozpoznawania języka polskiego, otrzymasz tekst choćby zbliżony do polskiego, jest znikome i to niezależnie od systemu operacyjnego, na którym OCR będzie działać.
Jeśli chodzi o inne programy typu OCR, to jest ich kilka, jednakże - jak pisałem na wstępie - żaden ze znanych nie obsługuje języka polskiego. Pozostałe silniki, to clara, KADMOS OCR, OCRAD, Ocre, Ocropus, Vuescan i kilka innych. Testy masz m.in. tu: http://groundstate.ca/ocr
IMO - jedyne rozwiązanie, to np. FineReader + wine.
Jeśli chodzi o inne programy typu OCR, to jest ich kilka, jednakże - jak pisałem na wstępie - żaden ze znanych nie obsługuje języka polskiego. Pozostałe silniki, to clara, KADMOS OCR, OCRAD, Ocre, Ocropus, Vuescan i kilka innych. Testy masz m.in. tu: http://groundstate.ca/ocr
IMO - jedyne rozwiązanie, to np. FineReader + wine.
-
pavbaranov
- Senior Member
- Posty: 2156
- Rejestracja: 29 lipca 2007, 18:06
FineReader, w wersji bodaj 6 testowej, można było niegdyś skądś zassać, ale... teraz nie ma. Chyba. Nie sprzedają tylko Ukraińcy, ale i w Polsce (no, przynajmniej na Polskiej stronie znalazłem), rozwiązanie jest darmowe, ale jest to jedynie silnik, który trzeba sobie we własnym zakresie obudować. Niestety nie jestem programistą.
[ Dodano: 2008-07-22, 10:09 ]
Może kogoś zainteresuje http://code.google.com/p/tesseract-polish/ i może jest nadzieja na jakiś OCR przystosowany dla polskiego użytkownika.
[ Dodano: 2008-07-22, 10:09 ]
Może kogoś zainteresuje http://code.google.com/p/tesseract-polish/ i może jest nadzieja na jakiś OCR przystosowany dla polskiego użytkownika.
-
pavbaranov
- Senior Member
- Posty: 2156
- Rejestracja: 29 lipca 2007, 18:06