ಒಳ್ಳೆಯ ಓದು
ನಾನು ಓದಿದ ಒಳ್ಳೆಯ ವಿಷಯ ನಿಮಗೆ ತಿಳಿಸುವೆ .
ಬಿಡುವಿನ ವೇಳೆಯಲ್ಲಿ ಒಂದಿಷ್ಟು ಕನ್ನಡ ಸೇವೆ
ನಾನು ಕಳೆದ ೩೭ ವರ್ಷಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ಸಮಯವನ್ನು ಓದುತ್ತಲೇ ಕಳೆದಿದ್ದೇನೆ. ( ಬರೆಯಲು ಜಾಣತನ ಬೇಕೇ ಹೊರತು ಓದಲು ಬೇಕಿಲ್ಲವಷ್ಟೆ? ) ಈವರೆಗೆ ಓದಿ ತಲೆಯಲ್ಲಿ ತುಂಬಿಕೊಂಡ ವಿಚಾರಗಳನ್ನು 'ಸಂಪದ'ದಲ್ಲಿ ಈವರೆಗೆ ಬರೆದು ತಲೆಯನ್ನು ಕೊಡವಿಕೊಂಡದ್ದಾಯಿತು. ಈ ಸಮಯದಲ್ಲಿ ಶ್ರೀ ಟಿ. ವಿ. ಶ್ರೀನಿವಾಸ ಅವರು ( ' ಸಂಪದ'ದ ಮೂಲಕವೇ ಅವರ ಪರಿಚಯವಾದದ್ದು ) ಕನ್ನಡಸಾಹಿತ್ಯ.ಕಾಂ ನ ಕುರಿತು ತಿಳಿಸಿದರು . ಅವರಿಗೆ ಬರಹಗಳನ್ನು ತಿದ್ದುವ ವಾಲಂಟೀರ್- ಸ್ವಯಂಸೇವಕರ ಅಗತ್ಯ ಇದೆ. ಎಂದು ತಿಳಿಸಿದರು .
ಅವರು ಹೇಳಿದಂತೆ ಯಾಹೂ ಗ್ರುಪ್ ( http://groups.yahoo.com/group/ksc-baraha-team) ನ ಸದಸ್ಯನಾಗಿದ್ದೇನೆ . ಅಲ್ಲಿಯ ರೋಹಿತ್ ಅವರು ಆಗಾಗ ಕೆಲವೊಂದು ಲೇಖನಗಳ ಲಿಂಕ್ ಕೊಡುತ್ತಾರೆ . 'ಬರಹ' ಮತ್ತು 'ನುಡಿ' ತಂತ್ರಾಂಶಗಳನ್ನು ಉಪಯೋಗಿಸಿ ಲೇಖನಗಳ ಕಾಗುಣಿತ ದೋಷಗಳನ್ನು ತಿದ್ದುತ್ತಲೇ , 'ನುಡಿ'ಯಲ್ಲಿನ ಪದಪರೀಕ್ಷಕ( ಅಂದ್ರೆ ಸ್ಪೆಲ್ಲ್ ಚೆಕ್ಕರ್ - ಕನ್ನಡದಲ್ಲಿ ! - ( ಅ. ರಾ. ಸೇ. ಯವರ 'ಸೊಗದಿರುಳು ನಲ್ವಗಲು' ಹಾಸ್ಯ ಕಾದಂಬರಿಯಲ್ಲಿ 'ಸೊಗದಿರುಳ್ ನನಗಕ್ಕೆ / ನಲ್ವಗಲ್ ನಿನಗಕ್ಕೆ' ಎಂದು ವಿಶ್ ಮಾಡಿದಾಗ ಯಾರೋ ' ಏನ್ಸಾ ಅಂಗಂದ್ರೆ ? ' ಅಂತ ಕೇಳ್ದಾಗ 'ಹಂಗಂದ್ರೆ ಕನ್ನಡದಾಗೆ ಗುಡ್ ನೈಟು , ಗುಡ್ ಡೇ ಅಂತ ಕಣಲೇ' ಅಂತ ವಿವರಿಸಿರ್ತಾರೆ!) ಉಪಯೋಗಿಸಿ ಪದಪರೀಕ್ಷಕಕ್ಕೆ ಅದು ಅರಿಯದ ಶಬ್ದಗಳನ್ನು ಸೇರಿರುವದು. ಈವರೆಗೆ ೧೯ ಲೇಕನಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ/ತಿದ್ದಿ ಸುಮಾರು ಇಪ್ಪತ್ತು ಸಾವಿರ ಶಬ್ದ ಸೇ(ಪೇ)ರಿಸಿದ್ದೇನೆ.
ಅಂದರೆ ಇಲ್ಲಿ ನಾನು ಕನ್ನಡ ಶಬ್ದಗಳನ್ನು ಗುರುತಿಸುವ ಶಕ್ತಿಯನ್ನು ಯಂತ್ರಕ್ಕೆ ಕೊಡುತ್ತಿದ್ದೇನೆ . ಅದೇ ಸಮಯಕ್ಕೆ ಅರ್ಧ ಜೀವಮಾನದ ಓದಿನ ನಂತರ ನನಗೆಷ್ಟು ಕನ್ನಡ ಪದಗಳನ್ನು ಗುರುತಿಸಲಾಗುತ್ತದೆ ಎಂಬ ಅಂದಾಜೂ ಸಿಗುತ್ತದಲ್ಲವೆ ?
ನೀವೂ ನಿಮ್ಮ ಬಿಡುವಿನ ವೇಳೆಯನ್ನು ಈ ರೀತಿ ಸದುಪಯೋಗಮಾಡಿಕೊಳ್ಳ ಬಯಸಿದರೆ ( http://groups.yahoo.com/group/ksc-baraha-team) ಗೆ ಸದಸ್ಯರಾಗಿ ನಮ್ಮ ಜತೆಗೆ ಕೈ ಕೂಡಿಸಬಹುದು.

- shreekant.mishrikoti ರವರ ಬ್ಲಾಗ್
- Login or register to post comments
- 1078 hits
- ಈ ಪುಟವನ್ನು ಇ-ಮೇಯ್ಲ್ ಮಾಡಿ



- ನಿರ್ವಾಹಕರ ಗಮನಕ್ಕೆ ತನ್ನಿ


RSS:
ಪ್ರತಿಕ್ರಿಯೆಗಳು
'ಸ್ಪೆಲ್ ಚೆಕರ್' ನ ಬಗ್ಗೆ ಮತ್ತೊಂದಿಷ್ಟು.....
'ಕನ್ನಡಸಾಹಿತ್ಯ.ಕಾಂ'ನ ಸಹಯೋಗದಲ್ಲಿ ಪ್ರಾರಂಭವಾಗಿರುವ 'ಸ್ಪೆಲ್ ಚೆಕರ್'ಗೆ ಪದಸಂಚಯವನ್ನು ನಿರ್ಮಿಸುವ ಕಾರ್ಯದ ಬಗ್ಗೆ ಸಂಪದದಲ್ಲಿ ಮಾಹಿತಿ ಬಿತ್ತರಿಸಿದ್ದಕ್ಕೆ ಶ್ರೀಕಾಂತ್ ರವರಿಗೆ ನಾನು ಋಣಿಯಾಗಿದ್ದೇನೆ.
ಈಗ ಈ ದಿಸೆಯಲ್ಲಿ ಎದುರಾಗಿರುವ ಒಂದು ತಾಂತ್ರಿಕ ತೊಡಕಿನ ಬಗೆಗೆ ಹೇಳಬಯಸುತ್ತೇನೆ. ಈಗಾಗಲೇ ಈ ಕಾರ್ಯದಲ್ಲಿ ತೊಡಗಿಸಿಕೊಂಡಿರುವವರು ನನಗೆ ಕಳುಹಿಸಿಕೊಟ್ಟಿರುವ dict ಫೈಲುಗಳನ್ನೆಲ್ಲ merge ಮಾಡಬೇಕಾಗಿದೆ. ಒಂದು ಫೈಲಿನಲ್ಲಿರುವ ಪದವು ಮತ್ತೊಂದರಲ್ಲೂ ಇರುವ ಸಾಧ್ಯತೆ ಇರುವುದರಿಂದ ಇಂತಹ duplicate entryಗಳನ್ನು ತೆಗೆಯುವ ಒಂದು batch ಸ್ಕ್ರಿಪ್ಟ್ನ ಅಗತ್ಯವಿದೆ. ಪರಿಣಿತರು ಇಂತಹದನ್ನು ಒದಗಿಸಿಕೊಟ್ಟಲ್ಲಿ ಪದಸಂಚಯದ ಕಾರ್ಯ ಮತ್ತಷ್ಟು ಶೀಘ್ರವಾಗಿ ಸಾಗಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.
ತಮ್ಮ ಸಹಕಾರ ಕೋರುತ್ತಾ....
ರೋಹಿತ್ ಆರ್.
script ಬಗ್ಗೆ
ರೋಹಿತ್,
ನಿಮ್ಮ ಯಾವುದಾದರೂ ೨-೩ dict ಫೈಲುಗಳನ್ನು ನನ್ನ e-mailಗೆ ಕಳಿಸಿಕೊಡಿ. ನನಗೆ ಬಂದಷ್ಟು perl ಉಪಯೋಗಿಸಿ script ಬರೆಯಲು ಪ್ರಯತ್ನಿಸುತ್ತೆನೆ. ಸರಿ ಅನ್ನಿಸಿದರೆ ಮುಂದೆ ಎಲ್ಲಾ ಫೈಲುಗಳನ್ನು ಒಂದಾಗಿಸೊಣ.
ಪ್ರಶಾಂತ
ಮೈಲ್ ಐಡಿ?
ಪ್ರಶಾಂತ್,
ತಮ್ಮ id? ಸಂಪದದ profileನಲ್ಲಿ ತಾವು ಈ-ಮೈಲ್ಗಳನ್ನು ಸ್ವೀಕರಿಸುವುದಿಲ್ಲ ಎಂದಿದೆ.
ರೋಹಿತ್.
ಈಗ ಇ-ಪತ್ರಗಳನ್ನು ಸ್ವೀಕರಿಸುತ್ತಿದ್ದೇನೆ
ಆದರೆ ಶ್ರೀಕಾಂತ ಹೇಳಿದ ಪರಿಹಾರ ಒಳ್ಳೆಯದ್ದಾಗಿದೆ. ಅವರಿಗೂ ಕಳಿಸಿ.
ನಾನು ನುಡಿ ಅಥವಾ ಬರಹ ಇಲ್ಲದೆಯೆ ಮಾಡುವುದ್ದಕ್ಕೆ ಪ್ರಯತ್ನಿಸುವೆ.
ಪ್ರಶಾಂತ
ಕಗಪ - ಪದಪರೀಕ್ಷಕ
ಈ ವಿಷಯವಾಗಿ ನಾವು "ಕಗಪ"ದ ಸಹಾಯಪಡೆಯಬೇಕು.
ನಾನು ನುಡಿ ತಂತ್ರಾಂಶದ ಪದಪರೀಕ್ಷಕಬಳಸಿ ನೋಡಿದ್ದೇನೆ. ಅದು ಯಾವ ಪ್ರಯೋಜನಕ್ಕೂ ಬರದು.
ಭಾರತೀಯ ಭಾಷೆಗಳ spell-checkerನ ಸಮಸ್ಯೆಗಳು
ಗ್ರೀಕ್ ಲಾಟಿನ್ ಗಳನ್ನು ಆದರಿಸಿದ ಐರೋಪ್ಯ ಭಾಷೆಗಳಲ್ಲಿ ಸಂಧಿ-ಸಮಾಸ ಗಳು ಇಲ್ಲವೆನೊ. ಹಾಗಾಗಿ ಅವುಗಳಿಗೆ spell-checker ಮಾಡುವುದು ಸುಲಭ. ಇವತ್ತು ಸೆರಿಸಿದ ಒಂದು ಪದ ಬೇರೆ ಈಗಾಗಲೆ ಇರುವ ಪದಗಳೊಡಗೂಡಿ ಸಾವಿರಾರು ಪದಗಳನ್ನು ಸೃಷ್ಟಿಸುವುದಿಲ್ಲ. 'im', 'en', 'dis' ಮುಂತಾದ prefix ಗಳಿಂದ ಹೊಸ ಪದಗಳು ಹುಟ್ಟಬಹುದು. ಆದರೆ ಅವುಗಳು ಮಿತವಾಗಿವೆ (finite).
ಆದರೆ ಭಾರತೀಯ ಭಾಷೆಗಳು ಹಾಗಲ್ಲ. ಒಂದು ಹೊಸ ಪದ, ತನ್ನ ಮುಂಚೆ ಇದ್ದ ಬಹುತೇಕ ಎಲ್ಲಾ ಪದಗಳೊಡನೆ ಸೇರಿ ಹೊಸಪದಗಳನ್ನು ಹುಟ್ಟಿಹಾಕುತ್ತವೆ. ಭಾಷೆಯ ಬೆಳವಣಿಗೆಗೆ ಇದು ತುಂಬ ಒಳ್ಳೆಯದು. ಆದರೆ spell-checker ಮಾಡುವವರಿಗೆ ದೊಡ್ಡ ತಲೆನೋವು.
ಇಂಗ್ಲಿಷ್ spell-checker ಉಪಯೊಗಿಸಿದವರು ಕನ್ನಡ, ಸಂಸ್ಕೃತ ಪದ-ಪರೀಕ್ಷಕಗಳಿಂದ ಅದೇ ರೀತಿಯ ಪಕ್ವತೆ, ಪರಿಪೂರ್ಣತೆಯನ್ನು ಅಪೆಕ್ಷಿಸುತ್ತಾರೆ. ತಪ್ಪೆನಿಲ್ಲ. ಆದರೆ, ಆ ಹಂತವನ್ನು ತಲುಪುವರೆಗೂ ನಾವು "ಪದಗಳನ್ನು ಅವುಗಳ ಮೂಲ ರೂಪದಲ್ಲಿ ಮಾತ್ರ ಹುಡುಕಿ ಸರಿಪಡಿಸುವ" ಪದ-ಪರೀಕ್ಷಕಗಳಿಂದ ನಮ್ಮ ಕೆಲಸ ಸಾಗಿಸಬೇಕು.
ಪ್ರಶಾಂತ
ಅಥವಾ ಪದಗಳ ಎಲ್ಲ ರೂಪಗಳನ್ನು ನಾವು ಸ್ಪೆಲ್ ಚೆಕರ್ ಗಳಿಗೆ ಸೇರಿಸಬೇಕು
ಅಥವಾ ಪದಗಳ ಎಲ್ಲ ರೂಪಗಳನ್ನು ನಾವು ಸ್ಪೆಲ್ ಚೆಕರ್ ಗಳಿಗೆ ಸೇರಿಸಬೇಕು . ನಾನು ಅದನ್ನೇ ಮಾಡ್ತಾ ಇದ್ದೇನೆ.
ಹಾಗೆ ಸೆರಿಸಿದರೆ
ನಿಘಂಟು ತಿಮಿಂಗಲ ಗಾತ್ರದ್ದಾಗುತ್ತದೆ. ಪದ-ಪರೀಕ್ಷಕ ತುಂಬ ನಿಧಾನವಾಗಿ (ಮನಸ್ಸಿಗೆ ನೋವಾಗುವಷ್ಟು) ಕೆಲಸ ಮಾಡುತ್ತದೆ.
ಕನ್ನಡ ಸಂಧಿಗಳನ್ನು ಸರಿಯಾಗಿ ಬಿಡಿಸುವ ಕ್ರಮವನ್ನು ಗಣಕಕ್ಕೆ ಅಳವಡಿಸದ ಹೊರತು ಬೇರೆ ದಾರಿ ಇಲ್ಲ.
ಈ ನಿಟ್ಟಿನಲ್ಲಿ ನಿಮ್ಮ ಪರಿಚಿತರು ಯಾರಾದರು ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದಾರ?
ಪದ-ಪರೀಕ್ಷಕ
ಈ ವಿಷಯವಾಗಿ ನನ್ನ ನಾನೇನಾದರು ಬಳಕೆಗೆ ಬರಬಹುದೆ?
ನನಗೆ ಈ ತಂತ್ರಗಳು ಗೊತ್ತಿಲ್ಲ.
ಬೇಕಾದಲ್ಲಿ ದಯವಿಟ್ಟು ಸಂಪರ್ಕಿಸಿ.
spell checker - merge solution
ಡಿಕ್ಷನರಿ ಫ಼ೈಲುಗಳನ್ನು ಮೊದಲು ನುಡಿ ಜತೆಗೆ ಬಂದಿರುವ DictEdit ಡಿಕ್ಶನರಿ ಎಡಿಟರ್ ನಲ್ಲಿ ತೆರೆದು ಎಕ್ಸ್ಪೋರ್ಟ್ ಮಾಡಿಕೊಳ್ಳಿ .
ನಂತರ ಎಕ್ಸ್ಪೋರ್ಟ್ ಮಾಡಿಕೊಂಡ ಫೈಲನ್ನು ತೆರೆದು ಅಲ್ಲಿಂದ ಕಾಪಿ ಮಾಡಿ , ಬರಹದಲ್ಲಿ - 'Paste Special- Convert kannaDa ascii- ಮಾಡಿದರೆ ಎಲ್ಲ ಶಬ್ದಗಳು
ಇಂಗ್ಲಿಷ್ ಆಸ್ಕಿಯಲ್ಲಿ ಸಿಗುತ್ತವೆ.
ಇದನ್ನು ಬರಹ ಫ಼ೈಲಾಗಿ ಉಳಿಸಿರಿ
ಹೀಗೆ ಎಲ್ಲ ಫ಼ಲುಗಳನ್ನು ಮಾಡಿದರೆ ಅವುಗಳನ್ನು ಸೇರಿಸಿ ಲೈನಕ್ಸಿಗೋ / ಯೂನಿಕ್ಸಿಗೋ ತೆಗೆದುಕೊಂಡು ಹೋಗಿ ಅಲ್ಲಿರುವ sort | uniq ಕಮ್ಯಾಂಡುಗಳನ್ನು ಉಪಯೋಗಿಸಿದರೆ ನಿಮ್ಮ ಉದ್ದೇಶ ಸಾಧಿಸಿದಂತೆ.
ಬೇಕಾದರೆ ನಾನು ಮಾಡಿಕೊಡುತ್ತೇನೆ
ಪದಪರೀಕ್ಷ
ನನಗೆ ನೀವು ಹೇಳುತ್ತಿರುವ ತಂತ್ರಗಳ ಬಗ್ಗೆ ಅರಿವಿಲ್ಲ.
ಪದಪರೀಕ್ಷ ಬೇಕೇಬೇಕು.
ಕೆಲವರು(ದೋಷಾರೋಪಣವಲ್ಲ) ಬಹಳ ತಪ್ಪುತಪ್ಪಾಗಿ ಬರೆದು, ಸಂಪದಕ್ಕೆ ಹಾಕುತ್ತಿದ್ದಾರೆ(ನಾನು ಕೂಡ).
ಅಲ್ಲದೆ ಎನ್ನಾದರು ಬರೆದರೆ, ಅದರ ಸರಿತನದ(ಹೊಸ ಪದವೆ?) ಬಗ್ಗೆ ಪದಪರೀಕ್ಷಕವನ್ನು ಬಳಸಿದರೆ, ನಿಷ್ಚಿಂತೆಯಿಂದಿರಬಹುದು.
DictEdit
ಶ್ರೀಕಾಂತ ರವರೆ,
ಸಾಧ್ಯವಾದರೆ ಒಂದು .dict ಫೈಲು ಕಳುಹಿಸಲು ಸಾಧ್ಯವೇ. ನನಗೆ ಈ ಡಿಕ್ಷನರಿ ಯಾವ ರೀತಿಯಲ್ಲಿದೆ ಎಂಬುದೇ ತಿಳಿಯುತ್ತಿಲ್ಲ.
ಧನ್ಯವಾದಗಳು
ಸ್ಕ್ರಿಪ್ಟ್ = Merge Solution
ಶ್ರೀಕಾಂತರವರೆ,
ನೀವು ತಿಳಿಸಿದ ರೀತಿಯಲ್ಲಿ ಒಂದು ಸಣ್ಣ shell script ಮಾಡಿ ರೋಹಿತ್ ರವರಿಗೆ ಕಳುಹಿಸಿರುವೆ. ಕಾದು ನೋಡೋಣ ಅದು ಅವರಿಗೆ ಉಪಯೋಗಕ್ಕೆ ಬಂತೇ ಎಂದು.
./Merge_Dictionary [FILE_NAME_1] [FILE_NAME_2] .........ಅಂತ ಚಾಲೂ ಮಾಡಿದರೆ ಅದು Sorted_Merged_List_[TIME_STAMP] ಎಂಬ file create ಮಾಡಿ, ನಕಲಾದ ಪದಗಳನ್ನು ಬೇರ್ಪಡಿಸುತ್ತದೆ. ಆದರೆ ಅದು unix ಕಾರ್ಯಾಚರಣ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಕೆಲಸ ಮಾಡುವಂಥದ್ದು.
ಧನ್ಯವಾದಗಳು.