ಕನ್ನಡದಲ್ಲಿ ಓಸಿಆರ್ ಇದೆಯೇ?
ಕಿಟೆಲ್ ನಿಘಂಟಾಗಲೀ ಕನ್ನಡ ಸಾಹಿತ್ಯ ಪರಿಷತ್ತಿನ ಬೃಹತ್ ನಿಘಂಟಾಗಲೀ ಪಂಪಭಾರತವೇ ಆಗಲಿ ಮತ್ತೆ ಅದನ್ನು ಟೈಪು ಮಾಡುವುದು ಅತಿ ತ್ರಾಸಾದ ಕೆಲಸ. ಅದರ ಬದಲು ಸ್ಕ್ಯಾನಿಂಗ್ ಮಾಡಿ ಅಚ್ಚು ಹಾಕೋದು ಸುಲಭವೆನ್ನಬಹುದೇನೋ? ಈಗಾಗಲೇ ನವದೆಹಲಿಯ AES ನವರು ಹಳೆಯ ಕನ್ನಡ ಪುಸ್ತಕಗಳನ್ನು ಹೀಗೆಯೇ ಮರುಮುದ್ರಣ ಮಾಡಿದ್ದಾರೆ. ಆದರೆ ಅಚ್ಚಾಗುವ ಮುನ್ನ ಆ ಪುಸ್ತಕದ ಒಡಲಲ್ಲಿ ಏನನ್ನಾದರೂ ತಿದ್ದಬೇಕೆಂದರೆ ಅದು ಸಾಧ್ಯವಿಲ್ಲ.
ಮೈಸೂರು ವಿವಿ ಯವರು ತಮ್ಮ ಇಂಗ್ಲಿಷ್ ಕನ್ನಡ ನಿಘಂಟನ್ನು ಪಿಡಿಎಫ್ ರೂಪದಲ್ಲಿ ನೀಡಿದ್ದಾರೆ.
ಪುಸ್ತಕದ ಪುಟಗಳನ್ನು ನೋಡಿ ತಾನಾಗೇ ಅಕ್ಷರಗಳನ್ನು ಕಂಪೋಸ್ ಮಾಡುತ್ತಂತಲ್ಲ ಒಂದು ತಂತ್ರಾಂಶ, ಅದು ಕನ್ನಡದಲ್ಲಿ ಇದ್ದಿದ್ದರೆ ಎಷ್ಟು ಚೆನ್ನಿತ್ತು ಅಲ್ಲವೇ? ಇಂಗ್ಲಿಷಿನಲ್ಲಿ ಈಗಾಗಲೇ ಅಂಥದು ಇದೆಯಂತೆ. ಇಂಗ್ಲಿಷಿನಲ್ಲಿ ಬರೇ ೨೬+೨೬ ಅಕ್ಷರಗಳಿರುವುದರಿಂದ ಈ ತಂತ್ರಾಂಶ ಸಾಧ್ಯವಾಗಿದೆಯಂತೆ. ಆದರೆ ಕನ್ನಡದಲ್ಲಿ ಅಕ್ಷರಮಾಲೆ, ಒತ್ತಕ್ಷರ, ಕಾಗುಣಿತ ಎಲ್ಲ ಸೇರಿದರೆ ಅದು ಹತ್ತಿರ ಹತ್ತಿರ ೫೦೦ ಆಗುತ್ತದೆಯಾದ್ದರಿಂದ ಈ ಓಸಿಆರ್ (ಆಪ್ಟಿಕಲ್ ಕ್ಯಾರಕ್ಟರ್ ರೆಕಗ್ನಿಶನ್) ತಂತ್ರಾಂಶ ಸಾಧ್ಯವಾಗುತ್ತಿಲ್ಲವಂತೆ.
ಹಿಂದೊಮ್ಮೆ ತಾತಾ ವಿಜ್ಞಾನ ಮಂದಿರದ ಇಬ್ಬರು ವಿದ್ಯಾರ್ಥಿಗಳು ಈ ನಿಟ್ಟಿನಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿದ್ದರಂತೆ. ನೋಡಿ http://www.springerlink.com/content/09gn4jx2eqcwk9xy/
ಅಲ್ಲದೆ ಅಡೋಬ್ ನವರಾಗಲೀ, ಮೈಕ್ರೋಸಾಫ್ಟಿನವರಾಗಲೀ ಅಥವಾ ಇನ್ಯಾರಾದರೂ ಈ ಕುರಿತು ತಮ್ಮ ಪ್ರಯತ್ನ ಮುಂದುವರಿಸಿರಬಹುದು. ಆ ಪ್ರಯತ್ನ ಬೇಗ ಕೈಗೂಡಲಿ ಎಂದು ಆಶಿಸುತ್ತೇನೆ.
ಏಕೆಂದರೆ ನಮ್ಮಲ್ಲಿ ನವಕರ್ನಾಟಕದವರ ಜ್ಞಾನವಿಜ್ಞಾನಕೋಶ, ಮೈಸೂರು ವಿಶ್ವವಿದ್ಯಾಲಯದವರ ಕನ್ನಡ ವಿಶ್ವಕೋಶ, ರೈಸರ ಎಪಿಗ್ರಾಫಿಯಾ ಕರ್ನಾಟಿಕಾ, ಕಿಟೆಲರ ನಿಘಂಟು, ಕವಿಗಳ ಸಾರಸ್ವತ ಭಂಡಾರ ಎಲ್ಲವೂ ಪುಸ್ತಕ ರೂಪದಲ್ಲಿದೆ. ಅವನ್ನೆಲ್ಲ ಡಿಜಿಟೈಸ್ ಮಾಡಿ ಅಂತರ್ಜಾಲದಲ್ಲಿ ಊಡಿದರೆ ಎಷ್ಟು ಚೆನ್ನ ಅಲ್ಲವೇ? ಆದ್ದರಿಂದ ಅಂಥಾ ಒಂದು ತಂತ್ರಾಂಶದ ಅಗತ್ಯ ಇಂದು ಎದ್ದು ಕಾಣುತ್ತಿದೆ.
ಪ್ರೀತಿಯಿಂದ
ಸಿ ಮರಿಜೋಸೆಫ್

- Login or register to post comments
- 291 hits
- ಈ ಪುಟವನ್ನು ಇ-ಮೇಯ್ಲ್ ಮಾಡಿ



- ನಿರ್ವಾಹಕರ ಗಮನಕ್ಕೆ ತನ್ನಿ


RSS:
ಉ: ಕನ್ನಡದಲ್ಲಿ ಓಸಿಆರ್ ಇದೆಯೇ?
ಇಲ್ಲೊಂದು ಚೂರು ಮಾಹಿತಿ ಈಗಷ್ಟೇ ಸಿಕ್ಕಿತು. ನೋಡಿ, http://www.valaconf.org.au/vala2006/papers2006/91_Ganapathiraju_Final.pd...
OCR in Indian Languages- Kannada
Designing an accurate OCR in Indian languages is one of the greatest challenges in
computer science. Unlike European languages, Indian languages have more than 300
characters to distinguish, a task that is an order of magnitude greater than distinguishing 26
characters. This also means that the training set needed is significantly higher for Indian
languages. It is estimated that at least a ten million-word corpus would be needed in any font
to recognise with acceptable accuracies in Indian languages. DLI is expected to provide such
a phenomenally large amount of data for training and testing of OCRs in Indian languages.
Many of the contents have been manually entered besides scanned images for this purpose.
Using this extremely large repertoire of data, a Kannada OCR had been developed. The
current level of accuracy that we get is around 96-97% on clean documents scanned at 400
dots per inch, and 40-50 % if the image is of bad quality. This OCR is currently being
improved and also being extended to other Indian languages including Tamil.
ಉ: ಕನ್ನಡದಲ್ಲಿ ಓಸಿಆರ್ ಇದೆಯೇ?
ನಾಡಿಗರ ಒಂದು "ಕಣಸು" ಇದಂತೆ:
http://sampada.net/blog/%E0%B2%B5%E0%B3%88%E0%B2%AD%E0%B2%B5/22/03/2008/...
*ಅಶೋಕ್
ಉ: ಕನ್ನಡದಲ್ಲಿ ಓಸಿಆರ್ ಇದೆಯೇ?
ಕನ್ನಡ OCR ಇಲ್ಲ ಸಾರ್. ಅದನ್ನು ಮಾಡಬೇಕು ಎಂಬುದೊಂದು ಸುಮಾರು ಜನರ ಕನಸಿದೆ.
ಮಾಡಿದರೆ ಒಳ್ಳೆಯ ಆರ್ಥಿಕ ಲಾಭವಂತೂ ಮಾಡಬಹುದು ಜೊತೆಗೆ ಕನ್ನಡ ಸೇವೆ !
**************************
http://vikasavada.blogspot.com/
**************************