1. Установите, если уже не установлена, библиотеку libtiff. Установите пакет tesseract. 2. После установки пакета войдите под пользователем, под которым Вы работаете и запустите скрипт ocr: ocr rus В вашей домашней директории скрипт создаст сл. структуру каталогов: ~/ocr ~/ocr/deu - для файлов изображений на немецком языке ~/ocr/eng - для файлов изображений на английском языке ~/ocr/fra - для файлов изображений на французском языке ~/ocr/ita - для файлов изображений на итальянском языке ~/ocr/nld - для файлов изображений на бельгийском языке ~/ocr/rus - для файлов изображений на русском языке ~/ocr/spa - для файлов изображений на испанском языке ~/ocr/txt - директория для распознанный текстовых файлов; ~/ocr/vie - для файлов изображений на вьетнамком языке 3. Подготовьте изображения - отсканируйте их с 400 DPI в режиме 256 оттенков серого, затем откройте каждый в GIMP'е. Поверните каждый из них вертикально, разбейте на блоки и сохраните каждый блок в отдельном файле. Для каждого из блоков увеличьте Яркость/Контраст для того чтобы избавится от мусора и желтизны бумаги. Сохраните все изображения в режиме 1-битном черно-белом режиме, предварительно преобразовав их, выбрав в меню Изрбражение>Режим>Индексированное - "Использовать черно-белую 1-bit палитру" Это важно! Tesseract распознает только черно-белые 1-битные изображения. Именуйте ваши файлы согласно алфавитоно-цифровому по порядку, к примеру - 1.tif, 2.tif, 3.tif и так далее. 4. Поместите изображения в директорию, которая соответствует распознаваемому языку. К примеру, если на изображениях - русский текст, то следует поместить их в директорию ~/ocr/rus, а если если на изображениях - английский текст, то следует поместить их в директорию ~/ocr/eng. 5. Затем запускаем скрипт ocr с параметром, который соответствует распознаваемому языку: ocr lang К примеру, если Вы скопировали изображения в директорию ~/ocr/rus, мне следует запустить скрипт так: ocr rus А если Вы скопировали изображения в директорию ~/ocr/eng, то мне следует запустить скрипт вот так: ocr eng 6. Когда текст распознается проверьте каталог ~/ocr/txt/, там должен появится новый текстовый файл text-packet-*.txt. Проверьте орфографию при помощи программы проверки aspell. Удалите ненужные теперь изображения. 7. Это - всё!