Taranan belgeyi metin belgesine çevirip düzenleme ihtiyacı hissedince internette küçük bir araştırma yaptım. Burada paylaşmak istedim.
Tarayıcı ile taranan belgeler resim formatında kaydedilir. Bu belgeleri metne çevirip düzenleyebilmek için OCR programları kullanılmaktadır. OCR, Optical Character Recognition yani Optik Karakter Tanıma olarak adlandırılmaktadır.
tesseract Linux tabanlı sistemlerde en çok tercih edilen OCR uygulamalarından birisi. İnternette araştırdığım kadarıyla ilk olarak HP tarafından geliştirilmiş, sonrasında Google tarafından geliştirilmeye devam edilmiş. Örgür bir yazılım ve terminalden komutlar kullanılarak çalışıyor. Kullanıcı arayüzüne sahip farklı alternatifler de var fakat karakter tanımadaki başarısı, hızı ve bir çok dil desteği sebebi ile bu daha çok kullanılıyor.
İlk olarak yapılması gereken synaptic paket yöneticisinden ya da terminalden bilgisayarımıza kurmak.
Resimde görüldüğü gibi tesseract-ocr’ye sağ tıklayıp kurulum için işaretleyi seçip yukarıda uygulaya basın.
ya da komut satırından,
sudo apt-get install tesseract-ocr
komutunu yazıp çalıştırarak kurulumu gerçekleştirin.
Gerisi kolay, taranmış belgenizin bulunduğu klasöre gidin ve burada uçbirim açın. Komut satırına,
tesseract belgeniz.jpg yeniBelge
yazın. Komut satırının işlemi tamamlamasını bekleyin. Aynı klasörde metin belgeniz hızlıca oluşacaktır. belgeniz.jpg, resim formatındaki taranmış belgedir. yeniBelge ise tesseract yazılımının taranmış belgenizi döüştüreceği txt formatındaki metin dosyasının adıdır.
Örnek taranmış belge:
tesseract çıktısı: out2.txt (4.4 KB)
Bence sonuç gayet başarılı, iyi çalışmalar…