OCR i Linux

Tematy związane z oprogramowaniem, instalacją, konfiguracją
pavbaranov
Senior Member
Posty: 2156
Rejestracja: 29 lipca 2007, 18:06

OCR i Linux

Post autor: pavbaranov »

Witam,
czy komukolwiek, a jeśli tak, to w jaki sposób, udało się zmusić jakikolwiek program linuksowy, który potrafiłby przetworzyć skanowany tekst polskojęzyczny (obojętnie ze skanera, z pliku we w miarę dowolnym, "cywilizowanym" formacie) i zapisać go w jakimkolwiek pliku tekstowym?
Rozwiązania z wine, a już na pewno z instalacją windowsa nie bardzo są tym, czego oczekuję.
fnmirk
Senior Member
Posty: 8324
Rejestracja: 03 grudnia 2007, 06:37

Post autor: fnmirk »

suchy
Posty: 11
Rejestracja: 23 lutego 2007, 11:50

Post autor: suchy »

witam. Ja chcialem podpytac o dostepne programy do ocr. Wyprobowalem wlasnie gocr i wrazenia mam jak najbardziej zle :evil:. Probowalem strone ze spisem tresci (wiadomo duze litery, bold itp)... kicha na maksa, nawet jednego wyrazu nie zczytal, pozniej sprobowalem skan zwyklego tekstu... juz troche lepiej, zaczol jakes zbitki liter wypluwac ale w 2 na 3 kolejne wyrazy byly bledy :evil: rownie dobrze moglbym to przepisywac recznie. O polskich znakach to juz oczywiscie nie wspomne ale myslalem ze bedzie na tyle sprytny ze wstawi pokrewna litere ą->a itp, no ale to juz jest drobiazg jak dla mnie. Czy jest jakis lepszy ocr w Debianie (w Linuksie mówiąc ogólnie) czy jestesmy skazani na (tfu!) Windows w tej materii?
pavbaranov
Senior Member
Posty: 2156
Rejestracja: 29 lipca 2007, 18:06

Post autor: pavbaranov »

Nie istnieje, chyba, żaden "sprytny" OCR, który podstawia za polski znaczek odpowiednik łaciński, tyle, że bez "ogonków" itp., zwłaszcza, że OCR, jeśli się nie mylę, działają na słownikach, zatem porównują sekwencję odczytanych znaków ze słownikiem i wsadzają słowo z niego, jeśli jest podobne bądź zbliżone, nie mówiąc już o tym, że jest takie samo. Prawdopodobieństwo zatem, że posługując się OCR nieprzystosowanym do rozpoznawania języka polskiego, otrzymasz tekst choćby zbliżony do polskiego, jest znikome i to niezależnie od systemu operacyjnego, na którym OCR będzie działać.
Jeśli chodzi o inne programy typu OCR, to jest ich kilka, jednakże - jak pisałem na wstępie - żaden ze znanych nie obsługuje języka polskiego. Pozostałe silniki, to clara, KADMOS OCR, OCRAD, Ocre, Ocropus, Vuescan i kilka innych. Testy masz m.in. tu: http://groundstate.ca/ocr
IMO - jedyne rozwiązanie, to np. FineReader + wine.
Bodzio
Junior Member
Posty: 599
Rejestracja: 26 grudnia 2007, 18:35

Post autor: Bodzio »

Kiedyś siedziałem pół dnia i szukałem Fine Reader pod Linuksa. I znalazłem :-(
Sprzedają to Ukraińcy na rynek europejski i kosztuje 8000 $ - i tylko dla developerów. Nie jestem developerem :)
Wersję windowsową udało mi się odpalić pod Cross Over - funkcjonalność żadna.
pavbaranov
Senior Member
Posty: 2156
Rejestracja: 29 lipca 2007, 18:06

Post autor: pavbaranov »

FineReader, w wersji bodaj 6 testowej, można było niegdyś skądś zassać, ale... teraz nie ma. Chyba. Nie sprzedają tylko Ukraińcy, ale i w Polsce (no, przynajmniej na Polskiej stronie znalazłem), rozwiązanie jest darmowe, ale jest to jedynie silnik, który trzeba sobie we własnym zakresie obudować. Niestety nie jestem programistą.

[ Dodano: 2008-07-22, 10:09 ]
Może kogoś zainteresuje http://code.google.com/p/tesseract-polish/ i może jest nadzieja na jakiś OCR przystosowany dla polskiego użytkownika.
Tom:-)
Beginner
Posty: 289
Rejestracja: 01 grudnia 2008, 13:52
Lokalizacja: Zakopane

Post autor: Tom:-) »

Czy dobrze rozumiem że nie ma na Linuxa oprogramowania OCR?
jerryS
Beginner
Posty: 122
Rejestracja: 07 maja 2007, 16:30
Lokalizacja: Bydgoszcz

Post autor: jerryS »

FineReader przez wine. ;-)
Działa. Co prawda nie ze skanera bezpośrednio (przynajmniej u mnie), ale z pliku to całkiem dobrze rozpoznaje tekst.
pavbaranov
Senior Member
Posty: 2156
Rejestracja: 29 lipca 2007, 18:06

Post autor: pavbaranov »

Tom:-), Jest, tylko, że nie ma jeszcze takiego, które radzi sobie z językiem polskim.
jerryS, Coś - chyba - źle skonfigurowałeś wine, bo u mnie FR skanuje (USB).
Tom:-)
Beginner
Posty: 289
Rejestracja: 01 grudnia 2008, 13:52
Lokalizacja: Zakopane

Post autor: Tom:-) »

pavbaranov pisze:Jest, tylko, że nie ma jeszcze takiego, które radzi sobie z językiem polskim.
a no właśnie :-/ . Brakuje oprogramowanie dedykowanego dla platformy Linux. Ja mam VMware więc mogę skorzystać w taki sposób ale brzydzę się Windows...
ODPOWIEDZ