Οπτική Αναγνώριση Χαρακτήρων για την Ελληνική γλώσσα







14/11/2024

Σημειώστε αυτή τη σελίδα σελιδοδείκτη.



Οπτική αναγνώριση χαρακτήρων (OCR) είναι η ηλεκτρονική ή μηχανική μετατροπή εικόνων δακτυλογραφημένου, χειρόγραφου ή έντυπου κειμένου σε κείμενο κωδικοποιημένο από μηχανή, είτε από σαρωμένο έγγραφο, φωτογραφία εγγράφου, φωτογραφία σκηνής (για παράδειγμα, το κείμενο σε πινακίδες και διαφημιστικές πινακίδες σε ένα τοπίο φωτογραφία), ή από κείμενο υπότιτλων που τοποθετείται σε μια εικόνα (για παράδειγμα: από τηλεοπτική μετάδοση).

Χρησιμοποιείται ευρέως για την εισαγωγή δεδομένων από έντυπα αρχεία – είτε διαβατήρια, τιμολόγια, τραπεζικές κινήσεις, αποδείξεις ηλεκτρονικού υπολογιστή, επαγγελματικές κάρτες, ταχυδρομείο, εκτυπώσεις στατικών δεδομένων ή οποιαδήποτε άλλη κατάλληλη τεκμηρίωση – είναι μια κοινή μέθοδος ψηφιοποίησης έντυπων κειμένων ώστε να μπορούν να να επεξεργάζεται ηλεκτρονικά, να αναζητείται, να αποθηκεύεται πιο συμπαγή, να εμφανίζεται στο διαδίκτυο και να χρησιμοποιείται σε διαδικασίες μηχανών όπως ο γνωστικός υπολογισμός, η μηχανική μετάφραση και η (εξαγωγή) text-to-sp OCR είναι ένα υποπεδίο της μελέτης αναγνώρισης προτύπων που περιλαμβάνει την τεχνητή νοημοσύνη και όραση υπολογιστή.

Οι προηγούμενες εκδόσεις απαιτούσαν εκπαίδευση με φωτογραφίες μεμονωμένων χαρακτήρων και δούλευαν σε μία μόνο γραμματοσειρά κάθε φορά. Προηγμένα συστήματα ικανά να παρέχουν υψηλό βαθμό ακρίβειας αναγνώρισης για την πλειονότητα των γραμματοσειρών είναι πλέον ευρέως διαθέσιμα, όπως και συστήματα που δέχονται έναν αριθμό μορφών αρχείων ψηφιακής εικόνας ως εισόδους. Ορισμένα συστήματα είναι σε θέση να αναπαράγουν μορφοποιημένα αποτελέσματα που είναι όσο το δυνατόν παρόμοια με την αρχική σελίδα, συμπεριλαμβανομένων γραφικών, στηλών και άλλων μη κειμενικών στοιχείων.