VietOCR: Giải Pháp Nhận Diện Ký Tự Quang Học Mã Nguồn Mở

VietOCR là một phần mềm mã nguồn mở, được phát triển bởi các lập trình viên Việt Nam, chuyên dùng để nhận diện ký tự từ nhiều định dạng ảnh phổ biến.

Chương trình này cung cấp cả chế độ quét trực tiếp, cùng với các công cụ xử lý hậu kỳ nhằm cải thiện độ chính xác về mặt ngữ nghĩa và chính tả sau quá trình nhận diện.

Ứng Dụng và Khả Năng

VietOCR có thể được vận hành như một ứng dụng nhận diện ký tự quang học (OCR) độc lập, cho phép xử lý nhanh chóng các tập tin ảnh và dữ liệu hiện có.

Bên cạnh đó, phần mềm còn tích hợp khả năng kết nối với máy quét, hỗ trợ xử lý tài liệu được nhập từ nguồn bên ngoài một cách thuận tiện.

Với những tính năng này, VietOCR trở thành một công cụ hữu ích cho việc chuyển đổi ảnh thành văn bản có thể chỉnh sửa.

Những tính năng nổi bật của phần mềm VietOCR

Phần mềm tương thích với mọi ngôn ngữ do Tesseract cung cấp.
Quá trình tải xuống và cài đặt các gói ngôn ngữ được thực hiện tự động.
VietOCR hỗ trợ đa dạng các định dạng ảnh như PDF , TIFF, JPEG, GIF, PNG và BMP.
Không có bất kỳ giới hạn nào về kích thước của tệp tin đầu vào.
Người dùng có thể dễ dàng dán hình ảnh trực tiếp từ Clipboard vào phần mềm.
Chức năng kéo và thả file được tích hợp, giúp thao tác nhanh chóng hơn.
Hỗ trợ xử lý nhiều tệp tin cùng lúc thông qua chế độ chuyển đổi hàng loạt.
Tích hợp sẵn chế độ quét, cho phép nhận dạng ký tự trực tiếp từ máy quét.
Công cụ kiểm tra chính tả giúp đảm bảo độ chính xác của văn bản sau khi chuyển đổi.

Khả năng chuyển đổi ký tự từ ảnh thành văn bản giúp người dùng loại bỏ công việc nhập liệu thủ công, qua đó tiết kiệm đáng kể thời gian và công sức.

Việc này đặc biệt hữu ích trong các trường hợp cần xử lý số lượng lớn tài liệu hoặc hình ảnh chứa văn bản.

Cách sử dụng phần mềm nhận dạng chữ viết VietOCR

Nhận dạng tài liệu ảnh

Thông thường, sau khi quét một tài liệu văn bản, file kết quả thường được lưu dưới dạng ảnh và không thể thao tác trực tiếp (xóa văn bản, nhập liệu, chỉnh sửa nội dung…) như bản gốc. VietOCR có chức năng chuyển đổi các tài liệu ảnh này thành văn bản, giúp bạn dễ dàng xử lý hơn. Phần mềm hỗ trợ nhiều định dạng ảnh phổ biến như: jpg, bmp, png, tiff, nhưng không tương thích với định dạng gif.

Để sử dụng chương trình, bạn cần đảm bảo đã cài đặt gói Visual C++ 2008 SP1 (nếu chưa có). Sau đó, truy cập menu File > Open, chọn All Image Files trong phần File of types và chọn file văn bản cần xử lý. Cuối cùng, nhấn nút Open để mở file.

Trên giao diện chính, bạn sẽ thấy hai khu vực: khu vực bên trái hiển thị nội dung của file ảnh vừa chọn, còn khu vực bên phải sẽ hiển thị văn bản sau khi trích xuất. Sau khi nội dung được tải xong, hãy chọn ngôn ngữ OCR là Vietnamese tại mục OCR Language (góc trên bên phải màn hình). Tiếp theo, nhấn nút OCR để bắt đầu quá trình chuyển đổi. Tốc độ xử lý phụ thuộc vào độ dài của văn bản và hiệu năng của máy tính.

Sau khi quá trình biên dịch hoàn tất, bạn sẽ có dữ liệu dạng văn bản, có thể dễ dàng xóa hoặc chỉnh sửa. Một ưu điểm nổi bật của VietOCR là khả năng tích hợp Bộ gõ Tiếng Việt (dựa trên bộ gõ UniKey ), cho phép bạn thay đổi nội dung văn bản có dấu một cách thuận tiện mà không cần sử dụng bộ gõ Unikey thường trực trên khay hệ thống. Để cấu hình bộ gõ trong VietOCR, bạn truy cập menu và chọn một trong các kiểu gõ: VNI, Telex, VIQR với Font mặc định là Unicode .

Nếu bạn chỉ muốn nhận dạng một vùng cụ thể, hãy giữ chuột trái và kéo để chọn vùng văn bản cần trích xuất. Chỉ nội dung trong vùng chọn sẽ được hiển thị ở khung bên phải. Để xử lý tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.

Để đánh giá khả năng nhận diện văn bản của chương trình với các định dạng khác nhau, người viết đã sử dụng các mẫu văn bản có sẵn (C:\Program Files\VietUnicode\VietOCR.NET\samples) và lưu chúng thành các định dạng PNG, JPG và BMP (256 bit) từ file gốc .TIFF bằng chương trình MS Paint của Windows.

Kết quả cho thấy, chương trình nhận dạng văn bản khá chính xác trong cả ba trường hợp. Tuy nhiên, vẫn còn một số dấu câu và từ ngữ chưa đúng, nhưng mức độ chính xác so với bản gốc là khá cao.

Cài đặt máy quét

Nếu bạn cần xử lý tài liệu từ máy quét, bạn cần cài đặt thêm máy quét. Để thực hiện việc này, hãy tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.

Sau đó, mở Start > Run, nhập lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Sau khi đăng ký thành công, hãy cài đặt driver cho máy quét và bắt đầu quá trình xử lý văn bản như hướng dẫn trước đó.

Trong quá trình biên dịch, bạn có thể gặp thông báo lỗi Attemp to read or write protected memory. Nguyên nhân có thể do văn bản bị xoay sai hướng. Hãy nhấn nút Rotate vài lần để điều chỉnh hướng cho đúng.

Nếu bạn không có máy quét, bạn vẫn có thể trải nghiệm tính năng của phần mềm bằng cách tải tiện ích ImagePrinter, giúp bạn chuyển đổi bất kỳ tài liệu nào sang các định dạng bmp, png, tiff, jpg được hỗ trợ. Để thay đổi giao diện chương trình sang tiếng Việt, bạn truy cập menu Settings > User Interface Language và chọn Vietnamese.

Tương tự như quá trình nhận dạng tài liệu ảnh, tài liệu quét sẽ được chia thành hai dạng: văn bản thuần và văn bản kèm hình ảnh. Quá trình xử lý và biên dịch diễn ra tương tự như bước 1. Kết quả cho thấy chương trình nhận dạng tốt với văn bản thuần, nhưng gặp lỗi OCR Operation với các tài liệu có hình ảnh. Điều này cũng xảy ra với các định dạng khác.

Để đảm bảo độ chính xác cao nhất, độ phân giải của bản quét nên đạt 300dpi, rõ ràng và không bị mờ.

Xử lý tài liệu PDF

Ngoài khả năng nhận dạng ảnh, VietOCR còn có thể xử lý các tài liệu PDF. Để sử dụng tính năng này, bạn cần cài đặt thêm gói GPL GhostScript 8.7. Sau khi cài đặt xong, bạn thực hiện các bước tương tự như xử lý tài liệu ảnh (với các tài liệu PDF có chứa hình ảnh, kết quả vẫn có thể bị lỗi).

Nhìn chung, VietOCR có khả năng xử lý văn bản tiếng Việt tốt, độ chính xác cao và tương thích với nhiều định dạng ảnh khác nhau, đặc biệt là với văn bản thuần. Bạn có thể sử dụng văn bản sau khi xử lý cho công việc mà không cần chỉnh sửa nhiều.