การศึกษาระบบการแปลภาษาด้วยคอมพิวเตอร์

Machine Translation System Study

ปัจจุบันสารสนเทศเป็นสิ่งจำเป็นสำหรับสังคม ทั้งในระดับองค์กร และปัจเจกชน ถึงแม้ว่าการสืบค้นสารสนเทศจากทั่วโลกนั้นสามารถทำได้ง่ายขึ้น แต่ข้อจำกัดทางความรู้ด้านภาษาต่างประเทศ โดยเฉพาะภาษาอังกฤษนั้น ทำให้คนไทยไม่ได้รับประโยชน์จากสารสนเทศเท่าที่ควร ซึ่งหากสามารถนำสารสนเทศในรูปแบบภาษาต่างประเทศมาถ่ายทอดเป็นภาษาไทยได้อย่างสะดวก รวดเร็ว มีประสิทธิภาพ และเผยแพร่สู่สังคมได้อย่างกว้างขวาง จะเป็นประโยชน์ต่อการพัฒนาการศึกษา และประเทศเป็นอันมาก ด้วยเหตุนี้จึงมีนักวิจัยจำนวนมากพยายามศึกษาวิจัย และพัฒนา Machine Translation ด้วยการประยุกต์ใช้เทคนิค หรืออัลกอริธึมต่างๆมากมาย สำหรับในบทความฉบับนี้จะทำการศึกษาเทคนิคที่ใช้ในพัฒนา English - Thai Machine Translation เพื่อเปรียบเทียบ และประเมินประสิทธิภาพของเทคนิคดังกล่าว ซึ่งผลจากการศึกษาจะสามารถนำไปเป็นข้อมูลพื้นฐานในการวิจัยเทคนิคที่จะนำมาประยุกต์ใช้ และพัฒนา English - Thai Machine Translation ที่เหมาะสมได้ต่อไป

Nowadays, the information is necessary for the society, organization and privatization (individuality). Although the information are searched easily from all over the world, the limitation of foreign languages especially English do not get any advantage from the information to Thai people a much as they should. Whether we are able to take the foreign information to translate in Thai conveniently, fast, efficiency and widely broadcast to the society, it would be highly beneficial to the education and country development. Therefore, many researchers try to study and improve the Machine Translation System by applied many techniques or algorithms. In case of this document, is studied in the English - Thai Machine Translation for comparison and evaluation of those achievable techniques. The result of our study will use as the basic information in the technical research which suitably applied and developed the English - Thai Machine Translation in the future.

1. บทนำ

มนุษย์ใช้ภาษาเป็นสื่อกลางในการสื่อสารเพื่อแลกเปลี่ยนข่าวสาร และความคิดเห็นมาเป็นระยะเวลานานหลายศตวรรษ ซึ่งภาษาต่างๆ ที่มนุษย์ใช้นั้นจะมีความแตกต่างอันเนื่องมาจากหลายสาเหตุด้วยกันเช่น ภูมิประเทศ วัฒนธรรม และความเชื่อต่างๆ ทางศาสนาเป็นต้น มาจนถึงปัจจุบันเทคโนโลยีทางการสื่อสารได้มีวิวัฒนาการไปเป็นอันมาก จนสามารถเรียกได้ว่าเชื่อมโยงโลกทั้งโลกไว้เป็นหนึ่งเดียว ทำให้สามารถติดต่อสื่อสารกันระหว่างประเทศ หรือข้ามทวีปได้โดยง่าย แต่สิ่งที่เป็นขีดจำกัดทางการสื่อสารนั้นคือภาษาที่แตกต่างกัน ซึ่งมีส่วนสำคัญเป็นอันมากในการประสบความสำเร็จในการสื่อสาร โดยเฉพาะประเทศกำลังพัฒนาอย่างประเทศไทยของเรา ซึ่งประชากรมีความรู้ด้านภาษาต่างประเทศมีจำนวนน้อย ทำให้การพัฒนาการศึกษาอันเป็นพื้นฐานสำคัญ ในการพัฒนาประเทศนั้นเป็นไปด้วยความลำบาก เนื่องจากเทคโนโลยี และความรู้สมัยใหม่ล้วนแล้วแต่ถูกนำเสนออยู่ในสื่อที่เป็นภาษาต่างประเทศ ดังนั้นหากเราสามารถลดขีดจำกัดทางด้านภาษาเหล่านี้ได้ก็จะส่งผลดีอย่างมากทั้งต่อส่วนบุคคล และสังคมโดยรวม จากปัญหาข้างต้นจึงได้มีนักวิจัย และโครงการวิจัยจำนวนมากในโลกที่พยายามศึกษาวิจัย และพัฒนาระบบการแปลภาษาด้วยคอมพิวเตอร์ (Machine Translation System : MT) เพื่อนำมาใช้ในการถ่ายทอดข่าวสารจากภาษาหนึ่ง ไปเป็นอีกภาษาหนึ่งตามที่ต้องการ

สำหรับการวิจัย MT ในประเทศไทยนั้นมีอยู่บ้างตามสถาบันการศึกษาต่างๆ แต่ส่วนใหญ่ยังไม่มีระบบใดถูกนำไปใช้งานจริง รวมถึงงานวิจัยของศูนย์เทคโนโลยีอิเล็กทรอนิกส์ และคอมพิวเตอร์แห่งชาติ หรือ NECTEC ที่ได้ร่วมมือกับต่างประเทศ ในการพัฒนาระบบ Multi-Lingual Machine Translation ที่สามารถแปลระหว่าง 5 ภาษา ได้แก่ ญี่ปุ่น, จีน, อินโดนีเซีย, มาเลเซีย และไทย อย่างไรก็ดีได้มีผู้พยายามที่จะพัฒนาโปรแกรมแปลภาษาขึ้นมาใช้ในท้องตลาดซอฟท์แวร์ เช่นโปรแกรม แปลไทย 1.0 ที่เป็นโปรแกรมแปลจากภาษาอังกฤษเป็นไทย เป็นต้น แต่ก็ยังมีข้อบกพร้องในการแปลอยู่พอสมควร

ซึ่งบทความนี้จะได้นำเสนอทฤษฎี และเทคนิคที่ใช้ในการพัฒนาระบบ MT โดยสังเขป พร้อมทั้งทำการเปรียบเทียบกับโปรแกรมแปลภาษาที่มีอยู่ในท้องตลาด และนำเสนอเทคนิคที่จะช่วยแก้ปัญหาของการแปลในบางส่วนได้

2. ระบบของ MT

การพัฒนาระบบ MT ในอดีตที่ผ่านมานั้น สามารถแบ่งออกเป็นระบบใหญ่ๆ ได้ 3 ระบบดังนี้

1.ระบบการแปลโดยตรง (Direct MT) เป็นระบบที่ใช้ในยุคต้นๆ ของการพัฒนา MT โดยการแปลนั้นจะขึ้นอยู่กับพจนานุกรม 2 ภาษา คือภาษาต้นฉบับ และภาษาเป้าหมาย และวิธีการแปลนั้นจะใช้การแปลคำต่อคำ หรือวลีต่อวลี จะเห็นได้ว่าคุณภาพในการแปลนั้น จะขึ้นอยู่กับคุณภาพของพจนานุกรม คือถ้าพจนานุกรมมีข้อมูลที่ละเอียดมาก คุณภาพการแปลก็จะดีตามไปด้วย

2.ระบบการแปลแบบถ่ายทอด(Transfer MT) เป็นเทคนิคที่ปรับปรุงขึ้นจากระบบแรก โดยแบ่งขั้นตอนการแปลออกเป็น 3 ขั้นตอนใหญ่ๆ คือ เริ่มจากการวิเคราะห์เพื่อสร้างรูปแบบแทนภาษาต้นฉบับ, การสร้างการถ่ายทอด (Transfer) ไปสู่รูปแบบภาษาเป้าหมาย และการสังเคราะห์สร้างภาษาเป้าหมายตามลักษณะที่เหมาะสม

3.ระบบการแปลแบบใช้ภาษากลาง (Interlingua MT) ระบบนี้เป็นการสร้างภาษาตัวแทนที่เป็นภาษากลางขึ้น และมีวิธีการแปลอยู่ 2 ขั้นตอนใหญ่ คือ การวิเคราะห์รูปลักษณะของภาษาต้นฉบับ (Source Language Analysis) เพื่อแทนค่าด้วยภาษากลาง ต่อมาจึงทำการสร้างภาษาเป้าหมาย โดยการสังเคราะห์รูปแบบภาษาเป้าหมายจากภาษากลาง ซึ่งตัวภาษากลางเองนั้น เป็นตัวแทนของความหมาย และความสัมพันธ์ของรูปแบบคำต่างๆ ที่ไม่ขึ้นอยู่กับภาษาใดภาษาหนึ่งโดยเฉพาะ คือจะแยกความหมายออกจากโครงสร้างภาษา ทำให้การแปลนั้นจะสามารถดำเนินการจากภาษาต้นฉบับภาษาใดก็ได้ และแปลไปสู่ภาษาเป้าหมายภาษาใดก็ได้ แต่การกำหนดภาษากลางที่จะสามารถครอบคลุมรูปแบบการใช้ภาษาของหลายภาษานั้นทำได้ยาก ดังนั้นระยะหลังของการใช้ระบบนี้จึงได้มีการนำระบบฐานความรู้เข้ามาช่วยในการแปล

ในปัจจุบันนี้ แนวโน้มในการพัฒนาระบบ MT ได้นำวิธีการทางสถิติเข้ามาช่วย ร่วมกับวิธีทางภาษาศาสตร์ เพื่อเพิ่มคุณภาพในการแปลให้สามารถแปลรูปแบบประโยคได้กว้างขึ้น อย่างไรก็ดีระบบแปลภาษาที่มีอยู่ในท้องตลาด หรือที่มีใช้กันอยู่ ส่วนใหญ่ยังเป็นการใช้กฎทางภาษาศาสตร์เพียงอย่างเดียว และมักจะเป็นสถาปัตยกรรมแบบระบบการแปลถ่ายทอด เนื่องจากสามารถพัฒนาได้ง่าย และรวดเร็วกว่า

ตัวอย่างเทคนิคที่นิยมนำมาใช้พัฒนาระบบ MT นั้นได้แก่

1. Rule-based method เป็นเทคนิคหนึ่งในประเภทระบบการแปลแบบถ่ายทอด และเป็นเทคนิคที่ได้รับความนิยมมานาน การทำงานของ Rule-based จะประกอบด้วย (1) การวิเคราะห์ประโยคต้นฉบับ ซึ่งอาจวิเคราะห์ทั้งในส่วนลักษณะของคำ (Morphology), วากยสัมพันธ์ (Syntactical) และ/หรือ ความหมาย (Semantic) (2) จากนั้นจึงเป็นการผลิตประโยคที่เป็นภาษาเป้าหมายออกมา ตามโครงสร้างภาษา ซึ่งทั้ง 2 ส่วนการทำงานจะขึ้นอยู่กับพจนานุกรม และกฎการถ่ายทอดที่กำหนดไว้

2. Example-based method เทคนิคนี้มีแนวความคิดที่ใช้ในการแปลคือ จะแปลโดยใช้ตัวอย่างการแปลของประโยคที่คล้ายกัน ซึ่งมีขั้นตอนหลักดังนี้ (1) เก็บตัวอย่างการแปลไว้ในฐานข้อมูล (2) นำประโยคที่จะแปลมาเปรียบเทียบกับตัวอย่างการแปลที่รวบรวมไว้ เพื่อหาตัวอย่างที่ใกล้เคียงกัน (3) นำตัวอย่างดังกล่าวมาหาวิธีการแปลสำหรับประโยคนั้น แล้วสร้างประโยคเป้าหมาย ซึ่งมีงานวิจัยจำนวนมากที่พยายามนำเอาเทคนิคทั้ง 2 ดังกล่าวมาประยุกต์ใช้ ร่วมกัน และพัฒนาขึ้นเป็นวิธีใหม่ของตนเอง และในที่สุดจึงได้เกิดเทคนิคใหม่ที่เรียกว่า Hybrid method

3. Hybrid method เป็นเทคนิคที่ผสมผสานระหว่างการทำงานแบบ Rule-based กับ Example-based ซึ่งจะมีหลักการทำงานดังนี้ (1) ค้นหารูปแบบประโยคทุกประโยคในฐานข้อมูล ที่ใกล้เคียงกับประโยคที่จะแปล (2) ทำการเลือกตัวแบบ (template) โดยมี 3 กระบวนการในการเลือก คือ จัดลำดับชั้นความใกล้เคียงของแต่ละประโยคตัวอย่าง, จัดกลุ่มการแปลของทุกประโยคตัวอย่าง แล้วจึงทำการเลือก โดยจะพิจารณาทั้งลำดับความใกล้เคียง และการแปลที่ดีที่สุด (3) ทำการแปลโดยยึดเอาตัวแบบที่เลือกเป็นหลัก (4) สร้างประโยคปลายทาง ที่ได้รับการปรับแต่งแล้ว

อย่างไรก็ดี จะเห็นได้ว่าก่อนที่จะสามารถพัฒนาระบบ MT ด้วยเทคนิคใดก็ตาม จำเป็นจะต้องมีการวิเคราะห์โครงสร้างของภาษาต้นฉบับ และภาษาเป้าหมาย เพื่อหาวิธีการแปลระหว่างภาษาเสียก่อน เนื่องจากภาษาแต่ละภาษามีโครงสร้างที่แตกต่างกัน

3. การวิเคราะห์โครงสร้างภาษาอังกฤษ และไทย

3.1 ความคล้ายคลึงกันของโครงส้รางประโยค

โครงสร้างประโยคพื้นฐานในภาษาทุกๆ ภาษานั้นจะประกอบด้วย ประธาน (Subject), กรรม(Object)และกริยา (Verb) เหมือนกัน ถึงแม้ว่าในบางประโยคนั้นจะมีไม่ครบทุกส่วนก็ตาม ซึ่งความแตกต่างระหว่างภาษานั้นอยู่ที่การวางตำแหน่งของคำในไวยากรณ์ โดยสามารถแบ่งรูปแบบไวยากรณ์ตามลักษณะการจัดเรียงของคำในภาษาที่พบได้ทั้งสิ้น 6 ลักษณะคือ SOV (Subject, Object, Verb), SVO, VSO, VOS, OVS OSV ซึ่งจากการแบ่งแยกลักษณะของไวยากรณ์ดังกล่าวจะพบว่า ภาษา อังกฤษ, ไทย, ฝรั่งเศส และสวาคีลี จัดอยู่ในกลุ่ม SVO (Subject, Verb, Object) เหมือนกัน จะต่างกันก็แต่เพียงตำแหน่งของกริยาช่วย และบุพบท เท่านั้น ตัวอย่างของวากยสัมพันธ์ในโครงสร้างวลีของภาษาอังกฤษมีดังนี้:

S Õ NP VP

NP Õ (Det) (Adj) n (PP)

VP Õ v (NP) (PP)

PP Õ Prep NP

ซึ่งในภาษาไทยจะใช้ดังนี้:

S Õ NP VP

NP Õ n (Adj) (Class) (Det)

VP Õ v (NP) (PP)

PP Õ Prep NP

(ความหมายของสัญลักษณ์ที่ใช้ แสดงไว้ในผนวก ก.)

จะสังเกตุได้ว่ารูปแบบโครงสร้างของ ประโยค และวลี ในทั้ง 2 ภาษานั้นใกล้เคียงกัน ซึ่งผลจากการศึกษาทางภาษาศาสตร์ บนพื้นฐานของ โครงสร้างไวยากรณ์นั้น พบว่ามีรูปแบบประโยคพื้นฐานของทั้ง 2 ภาษาอย่างน้อย 7 รูปแบบที่มีการจัดเรียงตำแหน่งเหมือนกันดังนี้

ประโยคภาษาอังกฤษ

ประโยคภาษาไทย

1. NP BE ADJ

1. NP ADJ

2. NP BE ADV

2. NP BE ADV

3. NP BE NP

3. NP BE NP

4. NP V

4. NP V

5. NP V PP

5. NP V PP

6. NP V NP

6. NP V NP

7. NP V NP NP

7. NP V NP NP

ตารางที่ 1 : ตารางเปรียบเทียบรูปแบบประโยคภาษาอังกฤษและภาษาไทย

ตัวอย่างของประโยคภาษาอังกฤษตามตา-รางที่ 1. มีดังนี้

1. Meg is beautiful.

2. The little cat is here.

3. My mother is a nurse.

4. They laugh.

5. She walk in the garden.

6. Pretty girl buys a dress.

7. A nice man gives the girl a dress.

ซึ่งในภาษาไทยประโยคทั้ง 7 จะมีการจัดเรียงดังต่อไปนี้

1. เม็ก สวย

Meg Beautiful

2. แมว ตัวเล็ก อยู่ ที่นี่

cat small is here

3. แม่ ของ ฉัน เป็น นางพยาบาล

mother of mine is nurse

4. พวกเขา หัวเราะ

they laugh

5. เธอ เดิน ใน สวน

she walk in garden

6. เด็กผู้หญิง น่ารัก ซื้อ เสื้อผ้า

girl pretty buy cloth

7. ผู้ชาย ใจดี ให้ เสื้อผ้า แก่

man nice give cloth to

เด็กผู้หญิง

girl

หมายเหตุ ข้อความภาษาอังกฤษที่แสดงอยู่ใต้ข้อความภาษาไทย เป็นเพียงการอ้างอิงคำศัพท์ เพื่อให้สามารถเห็นการจัดเรียงประโยคได้ชัดเจนเท่านั้น ไม่เกี่ยวกับการแปลใดๆ ทั้งสิ้น

3.2 ส่วนที่มีความแตกต่างกัน

ถึงแม้ประโยคพื้นฐานของภาษาอังกฤษ และภาษาไทย จะมีความคล้ายคลึงกันอย่างมาก แต่ก็ยังมีบางส่วนที่แตกต่างกัน ได้แก่โครงสร้างภายในวลีคำนาม และวลีกริยาที่การจัดเรียงของไวยากรณ์นั้นแตกต่างกัน เนื่องจากในภาษาอังกฤษนั้นจะวางตำแหน่งของคำวิเศษณ์ หรือคำขยายต่างๆ ไว้หน้าคำนามซึ่งสามารถแสดงได้ดังนี้

1. NP Õ Pron

2. NP Õ Det NP

3. NP Õ Poss Pron NP

4. NP Õ Art NP

5. NP Õ Adj NP

6. NP Õ n

ซึ่งในภาษาไทยนั้นคำนามจะถูกวางไว้ซ้ายสุด หรือต้อนวลีเสมอ แล้วจึงตามด้วยคำขยายต่างๆดังนี้

1. NP Õ Pron

2. NP Õ NP (class) Det

3. NP Õ NP Poss Pron

4. NP Õ NP

5. NP Õ NP (class) Adj

6. NP Õ n

สำหรับในส่วนของวลีกริยานั้น มีความแตกต่างกันในรายละเอียด เพราะแต่ละภาษานั้นมีความยืดหยุ่นของ องค์ประกอบ และการแสดงความหมายที่ต่างกัน ซึ่งมีการใช้กริยานุเคราะห์ และรูปแบบประโยคที่ถ่ายทอดความรู้สึก หรือเจตนาที่ต่างกัน ซึ่งโครงสร้างพื้นฐานวลีกริยาในภาษาอังกฤษ และไทยแสดงเปรียบเทียบไว้ดังนี้

อังกฤษ: VPÕ (Modal)(have-en)(be-ing)V(NP)(PP)

ไทย : VPÕ (Modal)(be-ing)V(NP)(have-en)(PP)

4. การใช้งาน MT ในปัจจุบัน

โปรแกรมระบบการแปลภาษาด้วยคอมพิวเตอร์ที่มีอยู่ในท้องตลาดนั้น ส่วนใหญ่จะเป็นการแปลระหว่างภาษาของประเทศมหาอำนาจทางเศรษฐกิจ เช่น อังกฤษ (อเมริกัน), เยอรมัน, เสปน, ฝรั่งเศส เป็นต้น สำหรับ MT ที่สนับสนุนภาษาของประเทศกำลังพัฒนานั้นยังมีอยู่น้อยมาก หรือยังอยู่ในระหว่างการวิจัย และพัฒนา ในประเทศไทยเองนอกจากงานวิจัยด้าน MT ของ สถาบันการศึกษาต่างๆ และ NECTEC ที่กำลังดำเนินการอยู่นั้น ยังมีนักพัฒนาซอฟท์แวร์บางส่วนพยายามสร้างโปรแกรมระบบแปลภาษาระหว่างภาษาอังกฤษ และไทยขึ้นมา เช่น โปรแกรม แปลไทย 1.0 ที่ได้เผยแพร่ในท้องตลาดในรูปแบบของ Freeware เป็นต้น

5. รูปแบบการทำงานของ แปลไทย 1.0

การทำงานในระบบแปลภาษาของ แปลไทย 1.0 นั้นคล้ายคลึงกับ Direct MT แต่จะมีบางส่วนที่แตกต่างไป จนอาจเรียกเทคนิคนี้ว่า Word-based ก็ได้ กล่าวคือ การแปลจากภาษาอังกฤษ เป็นไทยนั้นจะเป็นการแปลโดยแทนความหมายคำต่อคำโดยตรง และใช้พจนานุกรม 2 ภาษา ( อังกฤษ-ไทย ) ในการแปล แต่จะมีการเพิ่มกฎง่ายๆ สำหรับคำบางคำเก็บไว้เป็นคุณสมบัติเฉพาะแต่ละคำในพจนานุกรมด้วย เพื่อให้การวางตำแหน่งคำในภาษาเป้าหมาย (ในที่นี้คือภาษาไทย) เป็นไปอย่างเหมาะสม จากตัวอย่างประโยคที่มีรูปแบบพื้นฐาน 7 ประโยคดังนี้

1. Meg is beautiful.

2. The little cat is here.

3. My mother is a nurse.

4. They laugh.

5. She walk in the garden.

6. Pretty girl buys a dress.

7. A nice man gives the girl a dress.

จะได้ผลลัพธ์จากการใช้โปรแกรมแปลไทย 1.0 ดังนี้

1. Meg คือ beautiful.

2. The little cat อยู่ที่นี่.

3. ของฉันที่แม่คือ a nurse.

4. พวกเขา laugh.

5. เธอเดินใน the garden.

6. Pretty เด็กผู้หญิงซื้อ a dress.

7. A nice ผู้ชายให้เด็กผู้หญิง dress.

จะเห็นได้ว่าถ้ามองในเรื่องความหมายของคำนั้น ยังมีศัพท์บางคำไม่สามารถแปลได้ เนื่องจากในพจนานุกรมไม่ได้บันทึกไว้ แต่ผู้พัฒนาโปรแกรมได้สร้างส่วนสำหรับการเพิ่มเติมคำศัพท์ให้ผู้ใช้ไว้ด้วย ทำให้ผู้ใช้สามารถเพิ่มความหมายของศัพท์ลงไปได้ และจะสามารถแปลได้ดีขึ้นในภายหลัง แต่หากมองในรูปแบบของไวยากรณ์ในภาษาเป้า-หมายแล้ว ยังมีข้อบกพร่องอยู่ เช่นคำว่า “My” ในประโยคตัวอย่างที่ 3. “My mother is a nurse” ซึ่งวลี “My mother” ควรจะแปลว่า “แม่ของฉัน” แทนที่จะแปลว่า “ของฉันที่แม่” แต่ถ้าเปลี่ยนประโยคเป็น “My house is old.” จะแปลได้ว่า “บ้านของฉันคือเก่า” เนื่องจากการกำหนดการวางตำแหน่งของคำในภาษาเป้าหมายนั้น จะถูกกำหนดไว้ที่คำศัพท์แต่ละคำ มิได้กำหนดไว้เป็นกฎในรูปแบบทางภาษาศาสตร์ หรือไวยากรณ์ ทำให้การวางตำแหน่งคำที่เหมาะสมในคำศัพท์บางคำยังไม่สามารถทำได้

ดังนั้นหากเทคนิคในการแปลสามารถวิเคราะห์วากยสัมพันธ์ในประโยคได้จะทำให้คุณภาพการแปลนั้นดีขึ้น

6. การใช้ Sentence-based แก้ปัญหาของ แปลไทย 1.0

Sentence-based [1] เป็นเทคนิคที่พัฒนาขึ้นมา เพื่อสร้างระบบ MT ในการแปลภาษาอังกฤษเป็นภาษาไทย โดยจะใช้ Template ที่สร้างขึ้นในการแปลในลักษณะ Rule-based และนำประโยคที่แปลได้ไปขัดเกลาด้วยวิธีแบบ Example-based อีกครั้งหนึ่ง ซึ่งจะเห็นได้ว่าจะเป็นการผสมผสานการแปลแบบ Rule-based และ Example-based เข้าด้วยกัน เพื่อให้ได้ผลของการแปลที่ดีขึ้น สำหรับกระบวนการแปลนั้นประกอบด้วย

1. วิเคราะห์ลักษณะคำ (Morphological Analysis)

2. จัดหารูปแบบ (Pattern mapping )

3. ค้นหาคำในพจนานุกรม(Looking up Dictionary)

4. ลดความคุมเครือของประโยค (Disambiguating possible combination)

6.1 วิเคราะห์ลักษณะคำ

ก่อนที่จะเริ่มกระบวนแปลได้นั้น จะต้องมีการวิเคราะห์ลักษณะคำ หรือหาคำศัพท์ที่แท้จริง เนื่องจากในประโยคภาษาอังกฤษนั้น อาจมีคำบางคำถูกผัน เช่น คำกริยาที่ใช้กับนามที่เป็นเอกพจน์ จะมีการเติม “s” หรือ “es” เป็นต้น ดังนั้นจึงจำเป็นที่จะต้องหาคำกริยาจริงๆ ออกมาเสียก่อน ซึ่งโดยปกติการเขียนในภาษาอังกฤษนั้นคำแต่ละคำจะถูกแบ่งแยกด้วยช่องว่างอยู่แล้ว ดังนั้นเราจึงสามารถนำคำเหล่านั้นมาผ่านกระบวนการวิเคราะห์ตาม Morphological analysis rule ได้ทันที

6.2 จัดหารูปแบบ

ดังที่ได้กล่าวมาแล้วว่าภาษาอังกฤษ และภาษาไทยนั้น จัดได้ว่าอยู่ในภาษาประเภทเดียวกัน และมีความคล้ายคลึงกันทางวากยสัมพันธ์ เป็นอันมาก ดังนั้นเราจึงสามารถจัดหารูปแบบสำหรับการแปลระหว่าง 2 ภาษาโดยใช้รูปแบบประโยคนั้นเป็นตัวแบบการแปล

เราสามารถประยุกต์เอาการวิเคราะห์วากย-สัมพันธ์บนพื้นฐานของไวยากรณ์โครงสร้างวลี เพื่อระบุรูปแบบประโยคที่จะแปลได้ โดยที่ประโยคที่เข้ามาจะถูกวิเคราะห์วากยสัมพันธ์ และแทนด้วยสัญลักษณ์ non-terminal (NP, VP, PP, etc.) ซึ่ง string ของสัญลักษณ์ non-terminal ที่ได้นี้เอง จะถูกนำไปตรวจสอบเพื่อหารูปแบบประโยคตามตารางที่ 1 หากตรงกันกับรูปแบบใดรูปแบบหนึ่งในตาราง ประโยคนั้นจะสามารถจัดเข้ากับรูปแบบประโยคภาษาไทยได้ทันที

6.3 ค้นหาคำในพจนานุกรม

เมื่อได้รูปแบบการแปลแล้ว จะทำการค้นหาคำในพจนานุกรมเพื่อหาคำศัพท์ภาษาไทยที่จะใช้แทนที่ในการแปล แต่มีจำนวนไม่น้อยที่พบคำศัพท์ที่มีหลายความหมายอย่างหลีกเลี่ยงไม่ได้

6.4 ลดความคุมเครือของประโยค

ขั้นสุดท้าย จะต้องมีการวิเคราะห์ประโยคภาษาไทยที่ได้อีกครั้ง เพื่อหาส่วนที่ไม่ตรงกับไวยา-กรณ์ของไทย หรือน่าจะไม่มีความหมาย แล้วปรับปรุงแก้ไข ซึ่งจะสามารถช่วยเพิ่มความถูกต้องให้กับประโยคได้ โดยขั้นตอนการทำงานนี้จะใช้เทคนิคแบบ Example-based

ซึ่งการใช้ เทคนิค Sentence-based ในการแปลนั้น จะสามารถแปลประโยคภาษาอังกฤษที่มีรูปแบบพื้นฐานดังตารางที่ 1 ได้อย่างถูกต้อง และชัดเจนกว่าการใช้เทคนิคการแปลแบบ Word-based ของโปรแกรมแปลไทย 1.0 แต่อาจจะมีปัญหาอยู่บ้าง สำหรับประโยคที่มีรูปแบบนอกเหนือไปจากนี้ ดังนั้นจึงต้องมีการวิเคราะห์ไวยากรณ์ และสร้างกฎการแปลเพิ่มเติมขึ้น เพื่อให้สามารถแปลประโยคอื่นๆ ที่มีรูปแบบแตกต่างออกไปได้

7. การเพิ่มกฎการแปลให้กับเทคนิคแบบ Sentence-based

จากการวิเคราะห์ประโยคพบว่า มีประโยคบางส่วนที่มีรูปแบบนอกเหนือไปจากตารางที่ 1 สา-มารถกำหนดเป็นรูปแบบที่แน่นอนได้ แต่ก็มีอีกจำนวนมากที่ไม่สามารถกำหนดเป็นรูปแบบที่แน่นอนได้ เพราะมีความซับซ้อนในประโยคสูง สำหรับประโยคที่สามารถกำหนดรูปแบบที่แน่นอน และสามารถเพิ่มเติมเป็นกฎการแปลเพื่อใช้กับเทคนิค แบบ Sentence-based ได้นั้น แบ่งประเภทได้เป็นประโยคบอกเล่า (ในที่นี้รวมปฏิเสธด้วย) และประโยคคำถาม ซึ่งได้แสดงไว้ในตารางที่ 2 และ ตา-รางที่ 3 ตามลำดับดังนี้

ประโยคภาษาอังกฤษ

ประโยคภาษาไทย

1. NP V ADV

1. NP V ADV

2. NP V NP TO NP

2. NP V NP NP

3. NP V NP FOR NP

3. NP V NP FOR NP

4. NP V ADJ

4. NP V ADJ

ตารางที่ 2 : ตารางกฎการแปลประโยคบอกเล่าที่สามารถเพิ่มเติมได้

ตัวอย่างของประโยคที่มีรูปแบบตามตารางที่ 2 ได้แก่

  1. John walked quickly.

  2. He gave the money to George.

  3. He bought a gold watch for his wife.

  4. Mary fell sick.

    ประโยคภาษาอังกฤษ

    ประโยคภาษาไทย

    1. BE NP NP ?

    1. NP BE NP ?

    2. HV NP V NP ?

    2. NP HV V NP ?

    3. Pron V NP ?

    3. Pron V NP ?

    4. ADJ NP VP ?

    4. NP VP ADJ ?

    5. ADV HV VP

    5. VP HV ADV ?

    6. HOW ADJ HV NP?

    6. NP ADJ HOW ?

    ตารางที่ 3 : ตารางกฎการแปลประโยคคำถามที่สามารถเพิ่มเติมได้

    ตัวอย่างประโยคคำถามที่มีรูปแบบตามตา-รางที่ 3 ได้แก่

    1. Is she a student?

    2. Has she finished the job?

    3. Who broke my pencil?

    4. What color do you want?

    5. Where is the post office?

    6. How tall is Mike?

      อย่างไรก็ดี ดังที่ได้กล่าวมาแล้วว่า ยังมีรูปแบบประโยคอีกจำนวนมากที่ไม่สามารถกำหนดรูปแบบที่แน่นอนออกมาได้ อันเนื่องมาจากศิลปะการใช้ภาษามีความซับซ้อน ดังนั้นการแก้ปัญหาในส่วนนี้ vอาจจำเป็นต้องใช้ Example-based เข้ามาช่วย เพื่อทำให้ได้ความหมายของประโยคที่ชัดเจนมากขึ้น

      8. สรุป

      จากการศึกษาเทคนิคที่ใช้ในระบบ MT และเปรียบเทียบเทคนิคที่ใช้อยู่ใน MT ที่มีอยู่ในท้องตลาดในปัจจุบัน เพื่อเสนอแนวทางการแก้ปัญหาที่เกิดขึ้นในการแปลนั้น พบว่าเทคนิคการแปลแบบ Sentence-based นั้นน่าจะมีความสามารถที่ดีพอ สำหรับการนำมาพัฒนาระบบ MT อย่างง่ายที่ใช้สำหรับการแปลประโยคที่มีรูปแบบไม่ซับซ้อนนัก และสามารถแก้ไขปัญหาของโปรแกรม แปลไทย 1.0 ได้อย่างดี

      ปัจจุบันยังมีนักวิจัยอีกจำนวนมาก ที่เห็นความสำคัญของ MT และพยายามศึกษาวิจัยเพื่อหาเทคนิคที่เหมาะสำหรับการพัฒนาระบบ MT ที่มีความสามารถในการแปลมากขึ้น โดยผลจากงานวิจัยเหล่านั้นน่าจะมีประโยชน์เป็นอย่างมาก ในการลดปัญหาการสื่อสาร และการศึกษาของประเทศไทย อันจะยังประโยชน์ต่อการพัฒนาประเทศต่อไปในอนาคต

      เอกสารอ้างอิง

      [1] Kaewchai Chancharoen, Nisanad Tannin and Booncharoen Sirinaovakul. 1998. Sentence- based machine translaion for English – Thai. King Mongkut’s University of Technology Thonburi.

      [2] ผศ.นวลทิพย์ ตันติเศวตรัตน์. 1988. โครงการพัฒนาพจนานุกรมเพื่อการแปลภาษาด้วยคอมพิวเตอร์. สถาบันเทคโนโลยีพระจอมเกล้าธนบุรี.

      [3] วิรัช ศรเลิศล้ำวาณิช และ ดร.สุรพันธ์ เมฆนาวิน. แนวโน้มการวิจัยระบบเครื่องแปลภาษา. Papers on Natural Language Processing (1987 – 1994). National Electronics and Computer Technology Center.

      [5] ผศ.อัญชลี พงศ์พันธุ์. 1998. Understanding English Grammar (Sentences, Clauses, Phrases). สำนักพิมพ์ฟิสิกส์เซ็นเตอร์, กรุงเทพ.

      [6] Thai – English Machine Translation. http://www.nectec.or.th/sll/temt.html.


      ผนวก ก. ความหมายของสัญลักษณ์

      ความหมายของสัญลักษณ์ที่ใช้มีดังนี้

      S : Sentence -- ประโยค

      NP : Noun Phrase -- วลีของคำนาม

      VP : Verb Phrase -- วลีของคำกริยา

      PP : Preposition Phrase -- วลีของบุพบท

      n : noun -- คำนาม

      v : verb -- คำกริยา

      Det : Determiner -- คำประกอบหน้านามเพื่อกำหนดความหมายแบบเจาะจง

      Adj : Adjective -- คำคุณศัพท์

      Class : Classifier -- ลักษณะนาม

      Prep : Preposition – คำบุพบท

      BE : Verb to be – คำกริยาประเภท เป็น อยู่ คือ

      Poss Pron : Possessive Pronoun -- คำสรรพนามที่แสดงความเป็นเจ้าของ

      HV : Helping Verb -- กริยาช่วย