Trong hoàn cảnh RPA và Machine Learning (ML – học máy) đang dần tiến hóa theo hướng siêu tự động hóa, sự kết hợp giữa RPA và OCR đã không còn quá xa lạ và được chứng minh mang lại nhiều lợi ích cho doanh nghiệp. Trong bài viết này, ta sẽ tìm hiểu về cách kết hợp RPA và OCR, cũng như đi sâu hơn vào từng giai đoạn của quy trình đọc – hiểu tài liệu.
Xem thêm:
- Kết hợp RPA và Chatbot thúc đẩy tự động hóa cho Doanh Nghiệp
- 8 Bài Học Kinh Nghiệm Giúp Triển Khai Rộng RPA Trong Doanh Nghiệp
OCR trong RPA là gì?
OCR là gì?
OCR là viết tắt của Optical Character Recognition (Nhận dạng ký tự quang học). Đây là công nghệ được sử dụng để đọc và trích xuất văn bản từ các nguồn khác nhau (như hình ảnh hay PDF) sang định dạng số, có thể được chỉnh sửa mà không cần bước chụp thủ công.
OCR là công nghệ chuyên dùng để truyền tải, nhập dữ liệu
Với khả năng chuyển đổi văn bản in, viết tay, hay văn bản từ hình ảnh thành văn bản được mã hóa bằng máy, OCR có thể giảm (thậm chí loại bỏ) nguồn lao động thủ công cho một số tác vụ nhất định, từ đó đẩy nhanh quy trình làm việc, mang đến nhiều lợi ích cho doanh nghiệp.
Đó chính là lý do ngày càng nhiều doanh nghiệp sử dụng OCR. Báo cáo vào tháng 2 năm 2021 của Grand View Research chỉ ra rằng quy mô thị trường OCR được dự kiến trị giá gần 27 tỷ đô Mỹ vào năm 2028, với tốc độ CAGR là 16.7% trong giai đoạn 2021 – 2028.
OCR trong RPA: Làm sao để RPA đọc các dữ liệu?
RPA được tạo ra để thực hiện những tác vụ thủ công mang tính lặp đi lặp lại theo chu kỳ, nhằm nâng cao hiệu quả công việc, giúp nhân viên có thời gian tập trung nhiều hơn vào các công việc cần trí tuệ và sức sáng tạo của con người.
Khi kết hợp RPA và OCR, OCR hỗ trợ các bot RPA xử lý các tác vụ đòi hỏi hành động quét tài liệu, sau đó chuyển đổi những dữ liệu thu được thành định dạng bot có thể đọc và xử lý. OCR hiện đang thực hiện theo 4 bước sau:
- Bước 1: Xử lý trước hình ảnh bằng cách chuyển đổi nó sang tỷ lệ màu xám (gray scale), làm mịn và loại bỏ độ lệch của các chữ cái.
- Bước 2: Phát hiện các dòng đại diện cho các ký tự và các từ.
- Bước 3: Tạo ra một danh sách “ứng cử viên tiềm năng” cho từng ký tự, sau đó so sánh với dữ liệu được cho từ trước.
- Bước 4: Chọn ký tự phù hợp nhất và tạo ra phiên bản có thể đọc được bằng máy.
Tầm quan trọng của OCR trong RPA
OCR hiện nay đã có thể nhận dạng văn bản, dữ liệu với độ chính xác gần như tuyệt đối, cũng như phát triển khả năng “đọc” văn bản viết tay. Đặc biệt, nếu như kết hợp RPA và OCR, chúng ta có thể tạo ra một “cặp đôi hoàn hảo”. Sau khi OCR nhận dạng và đọc dữ liệu (ví dụ như quét các hóa đơn, hợp đồng, hồ sơ nhân viên), RPA sẽ phân phối những thông tin nhận được đến các bộ phận trong doanh nghiệp một cách chính xác.
Khi đứng độc lập OCR chỉ có tác dụng là đọc tài liệu. Còn khi kết hợp với RPA, OCR được nâng cao giá trị hơn, có thể hỗ trợ nhận dạng, xử lý và phân tích những dữ liệu phi cấu trúc ở định dạng khác nhau một cách hiệu quả nhất.
Xem thêm: Top 4 Doanh Nghiệp RPA Việt Nam – Sự Lựa Chọn Hàng Đầu Của Các Doanh Nghiệp
Lợi ích và thách thức khi sử dụng OCR cho RPA
Để có thể đưa ra những quyết định đúng đắn, các cấp lãnh đạo, quản lý cần có cái nhìn toàn cảnh và xem xét cả lợi ích và thách thức khi sử dụng OCR cho RPA. Cụ thể như sau:
Lợi ích khi tích hợp RPA với OCR:
Về mặt chức năng, OCR là một tính năng quan trọng của giải pháp tự động hóa quy trình bằng robot. Sự kết hợp giữa RPA và OCR mang đến 4 lợi ích nổi bật:
- Tự động hóa quy trình, bot có thể đọc hiểu tài liệu và thực hiện toàn bộ quá trình từ đầu đến cuối, giúp nhân sự có nhiều thời gian làm những công việc quan trọng hơn.
- Kết hợp bot và Machine Learning sẽ giúp nâng cao mức độ chính xác và tăng hiệu suất làm việc.
- Phạm vi xử lý tài liệu rộng hơn: Khi các bot đang cần xử lý một lượng tài liệu ở phạm vi rộng, chỉ một tập hợp các đối tượng xử lý dữ liệu thành dạng chuỗi duy nhất được triển khai và trong quy trình, từ đó các bot có thể phân loại tài liệu và sử dụng mô hình thích hợp cho các tác vụ khác nhau.
- Triển khai dễ dàng: Chỉ mất khoảng 1 phút để triển khai và đọc hiểu dữ liệu. Sau khi được đào tạo, bot có thể xuất các API, hoặc một giải pháp RPA tùy chỉnh có thể được sử dụng trong hệ thống cục bộ.
Thách thức khi kết hợp RPA và OCR:
Như đã nói ở trên, việc nắm rõ các thách thức khi triển khai kết hợp RPA và OCR sẽ mang đến cho doanh nghiệp cái nhìn toàn cảnh hơn, góp phần đưa ra quyết định có nên tích hợp OCR với RPA hay không.
- Dữ liệu không nhất quán dẫn đến tình trạng đôi khi, OCR sẽ trích xuất văn bản sai cách, có lỗi chính tả hay ngắt, nghỉ giữa các đoạn không đều, dẫn đến hiệu suất tổng thể giảm.
- Định hướng trang trong tài liệu không chính xác, vấn đề này xảy ra khi tài liệu bị quét sai trong giai đoạn thu thập dữ liệu.
- Gặp khó khăn trong việc tích hợp với RPA, không phải tất cả các công cụ RPA đều hoạt động tốt trong các môi trường máy tính. Một số công cụ RPA gây ra sự cố và các vấn đề nghiêm trọng trong quá trình tự động hóa.
- Văn bản được ghi lại bởi một công cụ OCR chung chung đều bị xáo trộn và không mang đến thông tin nào có ý nghĩa để các bot có thể sử dụng để thực hiện các hành động quan trọng.
Các tài liệu được xử lý bởi OCR trong RPA
Có những dạng tài liệu khác nhau, ví dụ như khác nhau về mẫu, về kiểu dáng, phong cách, định dạng hay khác nhau về ngôn ngữ. Chính vì vậy, các nhà phát triển không thể chỉ dựa vào chỉ một kỹ thuật OCR đơn giản để trích xuất tài liệu. Để giải quyết các dữ liệu từ các cấu trúc tài liệu khác nhau, các nhà phát triển cần sử dụng cả cách tiếp cận dựa trên nguyên tắc (rule-based approaches) và cách tiếp cận dựa theo mô hình (model-based approach).
Hiện nay, các công ty sử dụng OCR có thể tích hợp RPA trong hệ thống sẵn có của họ dựa vào các loại tài liệu.
- Tài liệu có cấu trúc: Đây thường là các tài liệu tuân thủ quy định sẵn có như biểu mẫu thuế, hộ chiếu, giấy phép lái xe… Đa phần các công cụ OCR trên thị trường có thể đọc các tài liệu có cấu trúc một cách dễ dàng với độ chính xác lên đến 98-99%. Và hiện RPA có thể đọc, phân loại và lưu trữ các tài liệu này một cách dễ dàng, liền mạch.
- Tài liệu bán cấu trúc: Là những tài liệu chứa những thông tin giống nhau nhưng được sắp xếp ở các vị trí khác nhau. Ví dụ, hóa đơn có 10 thông tin giống nhau, nhưng ở hóa đơn này phần địa chỉ ở trên đầu và một số khác phần địa chỉ này lại ở cuối cùng. Đối với dạng tài liệu này, các phương pháp tiếp cận dựa theo nguyên tắc không cho ra độ chính xác cao; do đó các mô hình học máy (machine learning) và học sâu (deep learning) được áp dụng để khai thác dữ liệu, khai thác thông tin bằng công nghệ OCR.
- Tài liệu phi cấu trúc: Là những dữ liệu không được định nghĩa, không được mô tả trước, thường được tạo ra theo cách diễn đạt tự nhiên của con người… Vì thế mà RPA không thể xử lý trực tiếp các dữ liệu này mà cần sự hỗ trợ của OCR, cần trích xuất và tạo ra những dữ liệu có cấu trúc. Ví dụ, trong kinh doanh có vô số tài liệu như email, báo cáo… chứa dữ liệu ở dạng văn bản, hình ảnh, con số, video… thì để đọc được dữ liệu cần sử dụng các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) như Nhận dạng thực thể (Named Entity Recognition) hay Word Embedding…
Dữ liệu phi cấu trúc chiếm 80% tổng dữ liệu, tuy nhiên dữ liệu phi cấu trúc rất khó phân tích nên cần các công cụ cần thiết để phân tích
Nhìn chung, để hiểu các tài liệu, điều đầu tiên cần làm là hiểu dữ liệu, sau đó triển khai OCR kết hợp RPA. Sau đó, thay vì lên một quy trình với từng bước chi tiết, chúng ta có thể “dạy” robot từ cách ghi lại quá trình xử lý văn bản bởi OCR, bằng cách tích hợp các quy tắc và thuật toán máy học.
Các trường hợp kết hợp RPA và OCR
Về cơ bản, OCR cho phép các bot RPA trích xuất văn bản từ hình ảnh và tài liệu được quét. Do đó, OCR là nền tảng cho nhiều trường hợp sử dụng RPA trong các lĩnh vực khác nhau như:
Trong lĩnh vực tài chính: Báo cáo nghiên cứu của McKinsey đã chỉ ra rằng khoảng 42% các hoạt động tài chính có thể được tự động hóa hoàn toàn. Trong lĩnh vực tài chính có thể kết hợp OCR và RPA vào việc:
- Xử lý hoá đơn: OCR thu thập dữ liệu hóa đơn (ID VAT, địa chỉ), thông tin mua hàng (sản phẩm đã mua, giá cả, VAT) để tạo ra bản ghi và cho phép các robot RPA khớp các hóa đơn để đặt hàng.
- Chấm điểm tín dụng: OCR thu thập dữ liệu trích xuất từ lịch sử thanh toán, tờ khai thuế, nợ tín dụng, thế chấp, khoản vay… để tạo các báo cáo tín dụng. Sau đó các bot RPA sử dụng những dữ liệu thu được để xử lý và xác thực khoản vay, quản lý thẻ tín dụng và ghi nợ.
Sự kết hợp giữa RPA và OCR mang lại nhiều lợi ích trong lĩnh vực tài chính
Trong lĩnh vực quản lý nhân sự: Khi kết hợp RPA với OCR, một số tác vụ trong lĩnh vực quản lý nhân sự cũng được tự động hóa như:
- Sàng lọc hồ sơ: OCR trích xuất dữ liệu ứng viên từ hồ sơ giấy, thư giới thiệu, các chứng chỉ liên quan… sau đó các bot RPA sẽ tìm nguồn ứng viên và xác minh lịch sử công việc của họ.
- Quản lý chi phí và đi lại: OCR được sử dụng để quét các chi phí của nhân viên lưu biên lai tính tiền, vé lên máy bay, sao kê tài khoản… Bot dựa vào các dữ liệu này để kiểm tra chéo các chi phí cá nhân với các quy định của công ty và quy định chi tiêu bên ngoài để đảm bảo sự tuân thủ.
Nhờ vào sự kết hợp giữa RPA và OCR, bộ phận HR sẽ có hiệu quả làm việc cao hơn.
Trong lĩnh vực chăm sóc sức khỏe: Báo cáo của Publicis Health năm 2020 chỉ ra rằng có khoảng 2,3 exabyte dữ liệu mới đã được tạo ra bởi ngành công nghiệp chăm sóc sức khỏe trên toàn cầu. Sử dụng RPA kết hợp OCR cho phép các nhân viên trong lĩnh vực này tự động hóa:
- Đăng ký bệnh nhân: Khi một bệnh nhân đến một cơ sở chăm sóc sức khỏe lần đầu tiên, họ được yêu cầu điền vào biểu mẫu đăng ký bệnh nhân với những thông tin cá nhân của họ. OCR có thể được sử dụng để quét các biểu mẫu này và RPA sẽ nhập dữ liệu này vào hệ thống mà không cần sự can thiệp của con người.
- Tạo tài liệu EHR (Hồ sơ chăm sóc sức khỏe điện): OCR sẽ ghi lại các thông tin trong hồ sơ giấy, như nhân khẩu học, ghi chú tiến trình chữa trị, các vấn đề sức khỏe, chẩn đoán và thuốc. Những thông tin này sẽ được chuyển đến các bot RPA để chúng nhập dữ liệu vào hệ thống hồ sơ chăm sóc sức khỏe điện tử, xử lý và chuyển đi nếu có nhu cầu.
Quy trình làm việc của RPA khi kết hợp, ứng dụng OCR
OCR là một kỹ thuật chuyển đổi hình ảnh hoặc các tệp khác nhau thành văn bản rất cơ bản và kết hợp với OCR, các bot RPA thực hiện các tác vụ đọc tài liệu theo quy trình sau:
- Nhập tài liệu từ một thư mục bằng bot: Tại đây, các tài liệu sẽ được tìm và nạp trên nền tảng đám mây (sử dụng API) hoặc từ một máy cục bộ.
- Phân loại tài liệu: Sau khi nạp dữ liệu, cần phải hiểu loại tài liệu và định dạng của chúng vì đôi khi những dữ liệu có định dạng tệp khác nhau như PDF, PNG hay JPG.
- Trích xuất dữ liệu bằng OCR: Ở giai đoạn này, các bot đã sắp xếp tài liệu thành một định dạng chung và phân loại chúng, và đây là bước các tài liệu được số hóa nhờ vào OCR.
- Tận dụng học máy/học sâu (machine learning/deep learning): Sau khi số hóa dữ liệu, phần mềm OCR sẽ hiểu và đọc được loại tài liệu mà nó đang xử lý. Tuy nhiên, OCR truyền thống có thể gặp khó khăn khi nỗ lực phân loại tài liệu. Do đó, các bot phần mềm cần được đào tạo khả năng nhận thức bằng cách ứng dụng các kỹ thuật ML/DL.
- Trích xuất và phân loại dữ liệu tốt hơn: Thông qua RPA, các cấu hình trích xuất được sử dụng sẽ được định hình, cho dù kỹ thuật OCR dựa trên quy tắc hay dựa trên ML, hay đó là mô hình kết hợp.
- Xác thực và củng cố thông tin: Các mô hình OCR và ML không chính xác 100% về mặt khai thác thông tin, do đó, việc thêm một lớp can thiệp của con người là cần thiết. Khi robot xử lý thông tin với độ chính xác thấp và xuất hiện các ngoại lệ, nó sẽ gửi thông báo đến trung tâm hành động, nơi nhân viên có thể tiếp nhận yêu cầu xác thực dữ liệu hoặc xử lý các ngoại lệ chỉ với một cú nhấp chuột.
Nhìn chung, dù là hai hệ thống tách biệt, cả RPA và OCR đều được tạo ra với mục đích khiến quy trình làm việc trở nên dễ dàng hơn và đạt hiệu quả cao hơn, chính xác hơn. Việc kết hợp RPA và OCR mang lại cho doanh nghiệp kết quả tốt hơn và loại bỏ các rủi ro có thể xảy ra, đặc biệt là những rủi ro liên quan đến việc nhập và lưu trữ dữ liệu.
FPT akaBot mang đến giải pháp tự động quá quy trình nghiệp vụ bằng robot (RPA) toàn diện. Với công nghệ lõi RPA, akaBot tích hợp AI (trí tuệ nhân tạo) và OCR để xây dựng giải pháp tự động hóa thông minh hơn, đảm bảo không xâm lấn hệ thống công nghệ thông tin sẵn có của doanh nghiệp và có thể tương tác với tất cả các phần mềm doanh nghiệp sử dụng.
Nguồn:
A Comprehensive Guide to OCR with RPA and Document Understanding
Combining OCR With AI and RPA for Advanced Data Analysis
What Is OCR And What Is It Used For?
OCR for RPA: How RPAs can understand unstructured data
RPA and Intelligent Automation for Optical Character Recognition Based Business Processes