Strona 1 z 2
OCR i Linux
: 13 stycznia 2008, 12:41
autor: pavbaranov
Witam,
czy komukolwiek, a jeśli tak, to w jaki sposób, udało się zmusić jakikolwiek program linuksowy, który potrafiłby przetworzyć skanowany tekst polskojęzyczny (obojętnie ze skanera, z pliku we w miarę dowolnym, "cywilizowanym" formacie) i zapisać go w jakimkolwiek pliku tekstowym?
Rozwiązania z wine, a już na pewno z instalacją windowsa nie bardzo są tym, czego oczekuję.
: 15 stycznia 2008, 03:05
autor: fnmirk
: 26 marca 2008, 12:18
autor: suchy
witam. Ja chcialem podpytac o dostepne programy do ocr. Wyprobowalem wlasnie gocr i wrazenia mam jak najbardziej zle :evil:. Probowalem strone ze spisem tresci (wiadomo duze litery, bold itp)... kicha na maksa, nawet jednego wyrazu nie zczytal, pozniej sprobowalem skan zwyklego tekstu... juz troche lepiej, zaczol jakes zbitki liter wypluwac ale w 2 na 3 kolejne wyrazy byly bledy :evil: rownie dobrze moglbym to przepisywac recznie. O polskich znakach to juz oczywiscie nie wspomne ale myslalem ze bedzie na tyle sprytny ze wstawi pokrewna litere ą->a itp, no ale to juz jest drobiazg jak dla mnie. Czy jest jakis lepszy ocr w Debianie (w Linuksie mówiąc ogólnie) czy jestesmy skazani na (tfu!) Windows w tej materii?
: 26 marca 2008, 14:04
autor: pavbaranov
Nie istnieje, chyba, żaden "sprytny" OCR, który podstawia za polski znaczek odpowiednik łaciński, tyle, że bez "ogonków" itp., zwłaszcza, że OCR, jeśli się nie mylę, działają na słownikach, zatem porównują sekwencję odczytanych znaków ze słownikiem i wsadzają słowo z niego, jeśli jest podobne bądź zbliżone, nie mówiąc już o tym, że jest takie samo. Prawdopodobieństwo zatem, że posługując się OCR nieprzystosowanym do rozpoznawania języka polskiego, otrzymasz tekst choćby zbliżony do polskiego, jest znikome i to niezależnie od systemu operacyjnego, na którym OCR będzie działać.
Jeśli chodzi o inne programy typu OCR, to jest ich kilka, jednakże - jak pisałem na wstępie - żaden ze znanych nie obsługuje języka polskiego. Pozostałe silniki, to clara, KADMOS OCR, OCRAD, Ocre, Ocropus, Vuescan i kilka innych. Testy masz m.in. tu:
http://groundstate.ca/ocr
IMO - jedyne rozwiązanie, to np. FineReader + wine.
: 26 marca 2008, 20:40
autor: Bodzio
Kiedyś siedziałem pół dnia i szukałem Fine Reader pod Linuksa. I znalazłem :-(
Sprzedają to Ukraińcy na rynek europejski i kosztuje 8000 $ - i tylko dla developerów. Nie jestem developerem

Wersję windowsową udało mi się odpalić pod Cross Over - funkcjonalność żadna.
: 26 marca 2008, 22:04
autor: pavbaranov
FineReader, w wersji bodaj 6 testowej, można było niegdyś skądś zassać, ale... teraz nie ma. Chyba. Nie sprzedają tylko Ukraińcy, ale i w Polsce (no, przynajmniej na Polskiej stronie znalazłem), rozwiązanie jest darmowe, ale jest to jedynie silnik, który trzeba sobie we własnym zakresie obudować. Niestety nie jestem programistą.
[ Dodano: 2008-07-22, 10:09 ]
Może kogoś zainteresuje
http://code.google.com/p/tesseract-polish/ i może jest nadzieja na jakiś OCR przystosowany dla polskiego użytkownika.
: 07 czerwca 2009, 11:45
autor: Tom:-)
Czy dobrze rozumiem że nie ma na Linuxa oprogramowania OCR?
: 08 czerwca 2009, 06:02
autor: jerryS
FineReader przez wine. ;-)
Działa. Co prawda nie ze skanera bezpośrednio (przynajmniej u mnie), ale z pliku to całkiem dobrze rozpoznaje tekst.
: 08 czerwca 2009, 09:00
autor: pavbaranov
Tom:-), Jest, tylko, że nie ma jeszcze takiego, które radzi sobie z językiem polskim.
jerryS, Coś - chyba - źle skonfigurowałeś wine, bo u mnie FR skanuje (USB).
: 08 czerwca 2009, 12:30
autor: Tom:-)
pavbaranov pisze:Jest, tylko, że nie ma jeszcze takiego, które radzi sobie z językiem polskim.
a no właśnie :-/ . Brakuje oprogramowanie dedykowanego dla platformy Linux. Ja mam VMware więc mogę skorzystać w taki sposób ale brzydzę się Windows...