Friday, April 27, 2012

தமிழிலக்கணப் பகுப்பான் (Tamil Grammar Parser) எழுதத் தொடங்குவது எப்படி?

நேற்று எழுத்திலக்கணத்தில் சார்பு எழுத்துகள் அறிமுகத்திற்குப் பிறகு, “மாத்திரை விளையாட்டு” விளையாடினோம். அப்போது, அந்த மாத்திரைக் கணக்கிடுவதை ஏன் தமிழிலக்கணப் பகுப்பான் தொகுப்பாக எழுதக் கூடாது என்றொரு வினா எழுப்பினேன்.

என்னடா இவன்? ஏற்கனவே தமிழிலக்கணம் பற்றிப் படிக்கவே நேரம் போதவில்லை? இதில் இவன் வேறு பகுப்பான் என்று தொடங்கி விட்டான் என்றெண்ண வேண்டாம். அது சுலபமாக எழுதக்கூடிய தொகுப்புதான். முதலில் நீங்கள் தமிழ் ஒருங்குறி (Unicode) அட்டவணையைப் படிக்க வேண்டும். அதற்கு இங்கே (http://unicode.org/charts/PDF/U0B80.pdf) சுட்டுக.

எனக்கு மிகவும் பிடித்த கணினி மொழி C# ஆகும். C# மொழியில் நான் தமிழிலக்கணப் பகுப்பான் ஒன்றை யாப்பிலக்கணத்தைப் பகுப்பதற்காக எழுதியிருக்கிறேன். இன்னும் சில வாரங்களில், அந்தப் பகுப்பானை செம்மைப் படுத்தி என் வலைப்பூவில் (blog) தரவேற்றம் (upload) செய்கிறேன்.

முதலில் உங்களுக்குப் பிடித்தமான கணினி மொழியில், ஒரு திட்டப்பணியைத் (project) தொடங்குங்கள். உயிரெழுத்துகள், மெய்யெழுத்துப் புள்ளி, அகார உயிர்மெய் எழுத்துகள் ஆகியவற்றுக்கு ஒரு அகராதி (dictionary data structure) எழுதுங்கள். ஒரு சிறிய வார்த்தையை கமாண்ட் லைன் ஆர்க்யுமெண்டாக (Command Line Argument) அனுப்பினாலே போதுமானதாக இருக்கும். அதே போல மாத்திரைகளை ஒரு அட்டவணையில் (table structure - again could be implemented using Dictionary) போடுங்கள். ஒவ்வொரு எழுத்தாகப் பகுத்து, அது எந்த வகையைச் சேர்ந்தது இனங்கண்டு அந்தந்த எண்ணிக்கை மாறிகளில் (Counter Variables) கூட்டுக. அந்த எண்ணிக்கை மாறிகளை அந்த எழுத்து வகைக்குறிய மாத்திரையோடு பெருக்கிக் கொள்ளுங்கள். இறுதியாக ஒவ்வொரு எழுத்து வகைக்கும் கண்டுபிடித்த மாத்திரையைக் கூட்டினால் மொத்த வார்த்தைக்கும் உண்டான மாத்திரை தெரிந்துவிடும். என்ன முயன்று பார்ப்பீர்களா?

2 comments:

  1. மிகவும் பயனுடையதாக இருக்கிறது இவ்வலை. அழகிய தொடக்கம். வாழ்க

    ReplyDelete
  2. எளிதாக கற்றுக்கொள்ள முடிகிறதுங்க........நன்றி.......வாழ்க உம் பணி.

    ReplyDelete