\documentclass[letter]{article}
\textwidth=16cm
\oddsidemargin=0cm
\evensidemargin=0cm
\topmargin=-2.5cm
\textheight=23cm
\newsavebox{\savepar}
\newenvironment{boxit}{\begin{lrbox}{\savepar}
\begin{minipage}[b]{\textwidth}}
{\end{minipage}\end{lrbox}\fbox{\usebox{\savepar}}}
\usepackage[thai,thainumber]{babel}
\usepackage{fonts-tlwg}
\title{
\textbf{ทรัพยากรเปิดทางภาษาสู่ความร่วมมือของการวิจัยและพัฒนา}\\
\textbf{The Open linguistic Resources CHanelled toward
InterDisciplinary research (ORCHID)}
}
\author{
ดร.วิรัช ศรเลิศล้ำวาณิช\\
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ\\
กระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม\\
{\latintext\ttfamily virach@links.nectec.or.th, http://www.links.nectec.or.th/virach/home.html}
}
\date{\today}
\begin{document}
\bibliographystyle{srt}
\maketitle
\section{บทนำ}
\textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ%
ร่วมกันพัฒนาทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี%
จุดประสงค์หลักอยู่สองประการคือ \textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษา%
ไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย.}
เราตระหนักดีถึงความสำคัญของภาษา ซึ่งนอกจากจะเป็นสื่อระหว่างคนกับคนแล้ว ยังเป็น%
รูปแทนความคิด และเป็นเครื่องมือในการใช้ความคิดด้วย. เครือข่ายคอมพิวเตอร์%
ในปัจจุบันทำให้ข้อมูลข่าวสารแพร่หลายไปอย่างรวดเร็ว. เครื่องมือที่ใช้ในการแสดงผล%
และการเตรียมข้อมูลข่าวสารนั้น จึงเป็นสิ่งจำเป็น. ด้วยเทคโนโลยีที่ก้าวหน้าไป%
อย่างรวดเร็ว, การที่เพียงจะสามารถแสดงผลได้หรือป้อนข้อมูลได้เท่านั้น ไม่เป็นที่%
เพียงพออีกแล้ว. การแสดงผลที่สวยงามถูกต้องตามแบบแผน หรือการเตรียมข้อมูลได้อย่าง%
ถูกต้อง และรวดเร็วจึงเป็นสิ่งที่จำเป็นที่จะต้องพัฒนาให้ทันตามการเปลี่ยนแปลงของ%
เทคโนโลยี.
ทรัพยากรทางภาษานอกจากจะเป็นแหล่งข้อมูลที่สำคัญแล้ว ยังเป็นปัจจัยที่สำคัญอันหนึ่ง%
สำหรับการศึกษาธรรมชาติของภาษา ซึ่งรวมถึงไวยากรณ์, คำศัพท์, และลักษณะของภาษา.
ฉะนั้น \textit{การรวบรวมข้อมูลอย่างมีระบบ} จึงมีความสำคัญยิ่ง. การศึกษาธรรมชาติ%
ของภาษาได้ก้าวหน้าไปมากพร้อมๆ กับการพัฒนาของระบบคอมพิวเตอร์และอัลกอริทึมในการ%
คำนวณ. ความเอื้ออำนวยของเทคโนโลยีทางการประมวลผลทำให้เราสามารถศึกษาลักษณะของภาษา%
ได้จากข้อมูลปริมาณมากๆ ได้ในเวลาอันรวดเร็ว. ผลที่ได้คือเราสามารถสรุปความรู้ทาง%
ภาษาจากข้อมูลจริงได้อย่างแม่นยำและครอบคลุม. ซึ่งผิดจากเมื่อในอดีตที่จำเป็นต้อง%
พิจารณาจากความรู้ของตนเองเป็นหลัก, ศึกษาได้แต่ในวงแคบๆ และไม่สามารถตรวจสอบ%
ความถูกต้องได้อย่างครอบคลุม. ฉะนั้น \textbf{\textit{การรวบรวมข้อมูลที่มีปริมาณ%
มากพอและทันสมัย}} จึงเป็นปัจจัยสำคัญอีกอย่างหนึ่ง.
จากแนวโน้มของการพัฒนาของเทคโนโลยีสารสนเทศ และเพื่อการเตรียมพร้อมเพื่อการ%
วิจัยและพัฒนาดังที่กล่าวมาข้างต้น, ผู้เขียนได้คิดถึงแนวทางอันหนึ่งในการที่จะ%
ส่งเสริมการพัฒนาโดยอาศัยมันสมองจากผู้รู้ผ่านเครือข่ายที่กำลังแพร่หลายอยู่ในทุก%
วันนี้. ในบทความนี้ ผู้เขียนจึงได้เสนอแนวคิดของแผนงาน \textbf{ORCHID (The Open
linguistic Resources CHanelled toward InterDisciplinary research)} ที่ได้รวมการ%
เตรียมพร้อมของข้อมูลและการประยุกต์ใช้งานเข้าด้วยกัน, เพื่อรองรับการพัฒนาของ%
เทคโนโลยีสารสนเทศสู่อนาคต.
\section{ข่าวสารบนเครือข่าย}
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ ๑) ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไป%
สามารถเข้าถึงระบบได้โดยง่าย, และ ๒) การพัฒนาของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือ%
ข่าย ดังเช่น Web browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย%
ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและรวดเร็ว. HTML (HyperText
Markup Language)~\cite{html} ได้ถูกกำหนดขึ้นมาเพื่อใช้ในการกำกับข้อความที่จะ%
สื่อสารกันบนระบบ WWW. HTML เป็นภาษาที่แตกแขนงออกมาจากต้นตำรับของภาษาเพื่อการ%
กำกับ (markup language) ที่รู้จักกันดีในชื่อของ SGML (Standard Generalized
Markup Language)~\cite{sgml}. การใช้ภาษาเพื่อการกำกับนี้จะทำให้ข้อความ%
อิเล็กทรอนิกส์ (eletronic text) มีลักษณะพิเศษ คือ เป็นข้อความที่ไม่ขึ้นกับระบบ%
จัดการ ซึ่งหมายความว่าทุกระบบ, ที่เข้าใจในมาตรฐานของภาษาเพื่อการกำกับ, จะสามารถ%
แสดงผลข้อมูลได้อย่างเหมาะสม. บางระบบอาจจะขึ้นบรรทัดใหม่ ดังในรูปที่~%
\ref{fig:htmlout1} หรือบางระบบอาจจะย่อหน้า ดังในรูปที่~\ref{fig:htmlout2} เมื่อ%
มีการกำกับย่อหน้า ดังเช่นในรูปที่~\ref{fig:html}. แต่ละระบบอาจจะใช้ตัวอักษรขนาด%
ต่างๆ กันในการแสดงผลหัวข้อในระดับต่างๆ กันด้วยก็ได้.
\begin{figure}[htbp]
\begin{center}
\begin{boxit}
\begin{quote}
% \footnotesize
\scriptsize
\sffamily
\hspace*{-3em}
{\LARGE \textbf{ข่าวสารบนเครือข่าย}}\\
\hspace*{-3em}
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ\\
๑. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย%
\\
๒. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ%
สืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{1em}
และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\
\end{quote}
\end{boxit}
\caption{ตัวอย่างการแสดงผลแบบที่หนึ่ง}
\label{fig:htmlout1}
\end{center}
\end{figure}
\begin{figure}[htbp]
\begin{center}
\begin{boxit}
\begin{quote}
\scriptsize
\sffamily
\hspace*{-3em}
{\LARGE \textbf{\underline{ข่าวสารบนเครือข่าย}}}\\
%\hspace*{2em}
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ\\
%\hspace*{2em}
ก. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย%
\\
%\hspace*{2em}
ข. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ%
สืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{1em}
และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\
\end{quote}
\end{boxit}
\caption{ตัวอย่างการแสดงผลแบบที่สอง}
\label{fig:htmlout2}
\end{center}
\end{figure}
\begin{figure}[htbp]
\begin{center}
\begin{boxit}
\scriptsize
\\
\\
\\
ข่าวสารบนเครือข่าย\\
\\
\\
\\
\\
ข่าวสารบนเครือข่าย\\
\\
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็%
เนื่องมาจากสาเหตุที่สำคัญสองประการคือ
\\
- ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้%
โดยง่าย\\
- พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser,
ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูล%
และข่าวสารได้อย่างแม่นยำและรวดเร็ว.\\
\\
\\
\\
\end{boxit}
\caption{ข้อความที่กำกับสำหรับ HTML}
\label{fig:html}
\end{center}
\end{figure}
ความคิดในการใช้เครื่องหมายร่วมเพื่อการกำกับ (Generic Markup) นั้น เกิดขึ้นมานาน%
แล้ว, ตั้งแต่ที่ William Tunnicliffe ได้เสนอต่อที่ประชุมสำนักพิมพ์ของรัฐใน%
แคนนาดาเมื่อเดือนกันยายน ๒๕๑๐~\cite{sgml:90}. เมื่อเข้าทศวรรษที่ ๗๐, ก็เริ่มมี%
ระบบที่ใช้เครื่องหมายร่วมเพื่อการกำกับเกิดขึ้น, และที่รู้จักกันแพร่หลายก็คือ
Scribe ของ Brian Reid, \TeX~\cite{knuth:94} ของ Knuth, \LaTeX~\cite{lamport:94}
ซึ่งเป็นการผนวกชุดคำสั่งที่เขียนตามลักษณะของ Scribe โดยนิยามให้เป็น macro ของ
\TeX, และ nroff/troff ซึ่งเป็นรุ่นถัดจาก RUNOFF ที่นิยมใช้กันมากบนระบบ UNIX.
\begin{figure}[htbp]
\begin{center}
\begin{boxit}
\begin{quote}
\scriptsize
\hspace*{-3em}
$\backslash$section\{ข่าวสารบนเครือข่าย\}
\hspace*{-3em}
$\backslash$par ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้ง%
นี้ก็เนื่องมาจากสาเหตุที่สำคัญสองประการคือ
\hspace*{-3em}
$\backslash$begin\{itemize\}\\
\hspace*{-3em}
$\backslash$item ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึง%
ระบบได้โดยง่าย\\
\hspace*{-3em}
$\backslash$item พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web
browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{-3em}
และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\
\hspace*{-3em}
$\backslash$end\{itemize\}\\
\end{quote}
\end{boxit}
\caption{ข้อความที่กำกับสำหรับ \TeX\ หรือ \LaTeX}
\label{fig:latex}
\end{center}
\end{figure}
\begin{figure}[ht]
\begin{center}
\begin{boxit}
\begin{quote}
\scriptsize
\hspace*{-3em}
.TH PWD 1L "GNU Shell Utilities" "FSF" $\backslash$" -*- nroff -*-\\
\hspace*{-3em}
.SH NAME\\
\hspace*{-3em}
pwd $\backslash$- print name of current/working directory\\
\hspace*{-3em}
.SH SYNOPSIS\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
.br\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
\{$\backslash$-$\backslash$-help,$\backslash$-$\backslash$-version\}\\
\hspace*{-3em}
.SH DESCRIPTION\\
\hspace*{-3em}
This manual page documents the GNU version of\\
\hspace*{-3em}
.BR pwd .\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
prints the fully resolved name of the current directory. That is, all
components of the printed name will\\
\hspace*{-3em}
be actual directory names $\backslash$-$\backslash$- none will be symbolic
links.\\
\hspace*{-3em}
.PP\\
\hspace*{-3em}
Note that most Unix shells provide a built-in\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
command with similar functionality so the unadorned, interactive\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
command will usually execute the built-in version and not this one.\\
\hspace*{-3em}
.SS OPTIONS\\
\hspace*{-3em}
.TP\\
\hspace*{-3em}
.I "$\backslash$-$\backslash$-help"\\
\hspace*{-3em}
Print a usage message on standard output and exit successfully.\\
\hspace*{-3em}
.TP\\
\hspace*{-3em}
.I "$\backslash$-$\backslash$-version"\\
\hspace*{-3em}
Print version information on standard output then exit successfully.\\
\end{quote}
\end{boxit}
\caption{ข้อความที่กำกับสำหรับ nroff}
\label{fig:nroff}
\end{center}
\end{figure}
ดูเหมือนว่า \LaTeX\ จะประสบความสำเร็จในการแยกข้อมูลที่บอกโครงสร้างของบทความ%
ออกจากข้อมูลที่เป็นเนื้อของบทความ. แต่อย่างไรก็ตามสัญลักษณ์ในการกำกับของ
\LaTeX\ ก็ยังเป็น macro ที่ประกอบด้วยชุดของคำสั่ง ซึ่งผู้ใช้สามารถเลือกกำกับด้วย%
คำสั่งได้โดยตรง. เหล่านี้เป็นตัวที่ทำให้ \TeX\ หรือ \LaTeX\ มีส่วนที่จะต้องขึ้น%
อยู่กับระบบอีก.
ภาษาเพื่อการกำกับที่คาดหวังกันไว้นั้น จะเป็นตัวกำกับโครงสร้างของข้อความเพื่อให้%
ระบบสามารถจัดพิมพ์ หรือ แสดงผลได้ตามรูปแบบของตนเอง โดยไม่มีส่วนที่ต้องขึ้นกับ%
ระบบอีกต่อไป. ปัจจุบันนี้มีการกำหนดมาตรฐานของภาษาเพื่อการกำกับขึ้นมาใหม่, เรียก%
ว่า XML (eXtensible Markup Language)~\cite{xml} เพื่อให้สะดวกต่อการใช้มากขึ้น%
กว่า SGML. XML เป็น subset ของ SGML, เป็นภาษาที่ออกแบบไว้เพื่อใช้ในการสื่อสารบน%
เครือข่ายโดยเฉพาะ. XML ต่างจาก SGML ตรงที่มีการคำนึงถึงปัญหาต่างๆ ซึ่งอาจจะเกิด%
ขึ้นได้ในระหว่างการติดต่อผ่านเครือข่าย. XML จึงมีความยืดหยุ่นมากในการกำกับ และ%
ผู้ใช้สามารถกำกับให้รวบรวมข้อความหรือข้อมูลจากที่ต่างๆ พร้อมทั้งบอกลักษณะของข้อ%
ความหรือข้อมูลเหล่านั้นได้ด้วย. เหล่านี้ทำให้ XML เหมาะสำหรับการบันทึกข้อมูล
เนื่องจากว่ามีความยืดหยุ่นพอที่จะสามารถอธิบายโครงสร้างทางตรรกศาสตร์ (logical
structure) ของข้อความต่างๆ ได้, ไม่ว่าจะเป็นแบบฟอร์ม (form), บันทึก (memo),
จดหมาย (letter), รายงาน (report), หนังสือ (book), สารานุกรม (encyclopedia),
พจนานุกรม (dictionary) หรือฐานข้อมูล (database).
ผู้เขียนจึงขอสรุปไว้ในตอนท้ายของบทนี้ว่า ในการบันทึกข้อมูลต่อไปในอนาคตนั้น, เรา%
จำเป็นต้องคำนึงถึงเงื่อนไขในการใช้งานบนเครือข่ายด้วย. เครือข่ายที่พูดถึงตรงนี้ก็%
เป็นเครือข่ายสากล (Global Network; World Wide Web), ไม่ได้จำกัดอยู่เพียงเครือ%
ข่ายท้องถิ่น (Local Area Network) อีกต่อไปแล้ว. การจัดเก็บข้อมูลที่เหมาะสมนั้นก็%
ควรจะต้องมีเนื้อหาของข้อความ (plain text) และข้อมูลของโครงสร้างทางตรรกศาสตร์
(logical structure) กำกับไว้เพื่อที่จะให้ข้อมูลนั้นๆ เป็นอิสระจากอุปกรณ์
(device) และระบบ (system). การจัดเก็บข้อมูลในลักษณะนี้จะแตกต่างจากวิธีการเก็บแบบ%
เก่า ที่ไม่ได้แยกข้อมูลสำหรับบอกลักษณะของการจัดพิมพ์ หรือแสดงผลออกจากข้อความ,
ดังเช่นไฟล์ข้อมูลที่ใช้ใน Wordprocessor ทั่วไป, nroff/troff, หรือที่เป็นเพียงบาง%
ส่วน ดังเช่นไฟล์ข้อมูลที่ใช้ใน \TeX\ หรือ \LaTeX\ ตามที่กล่าวไว้ข้างต้น
เป็นต้น. การเก็บข้อมูลด้วยวิธีหลังนี้ค่อนข้างตรง, สะดวกต่อการแก้ไขและแสดงผล. แต่%
เนื่องจากข้อความประเภทนี้จะมีแต่ข้อมูลที่เกี่ยวกับลักษณะของการแสดงผลเท่านั้น,
ไม่มีข้อมูลที่เกี่ยวกับโครงสร้าง หรือข้อมูลที่แสดงความสัมพันธ์ภายในข้อความ จึง%
ไม่เหมาะที่จะใช้ในการประมวลผล. การแสดงผลนั้นจะต้องขึ้นอยู่กับระบบเป็นส่วนใหญ่
และเมื่อเกิดการแก้ไขการแสดงผลผู้ใช้ก็จำเป็นที่จะต้องแก้ไขรายละเอียดทั้งหมดให้สอด%
คล้องกัน.
\section{ความเป็นจริงของภาษาที่สะท้อนจากข้อมูลจริง}
กล่าวกันว่าในโลกนี้มีภาษาที่ใช้กันอยู่มากกว่า ๓,๕๐๐ ภาษา~\cite{enc-ling:88},
ภาษาที่ตายไปแล้วก็มีอยู่มาก. ``ภาษาเป็น'' เท่านั้นที่ยังมีการเปลี่ยนแปลงอยู่.
ในที่นี้ผู้เขียนจะไม่กล่าวถึงทฤษฎีหรือไวยากรณ์ของภาษา, แต่จะชี้ให้เห็นถึงความ%
สำคัญในการที่จะต้องศึกษาภาษาจากที่ใช้กันอยู่จริง.
ขณะนี้เรามีพจนานุกรมให้เลือกใช้กันอยู่มากมาย. กระนั้นก็ตามพจนานุกรมที่เรายึดถือ%
ใช้กันเป็นหลักอยู่ในตอนนี้ก็คือ พจนานุกรมฉบับราชบัณฑิตยสถาน. อาจเป็นเพราะว่าเป็น%
พจนานุกรมที่ได้รับการกลั่นกรองและตรวจสอบอย่างระมัดระวังมากที่สุดฉบับหนึ่ง จึงได้%
รับการอ้างอิงมาก, โดยเฉพาะในการตรวจสอบความถูกต้องของภาษาไทย. แต่ไม่ว่าจะเนื่อง%
ด้วยสาเหตุใดก็ตาม, จำนวนคำศัพท์ที่ปรากฏอยู่ในฉบับ พ.ศ.๒๕๒๕ นั้นยังมีอยู่จำกัด%
มาก (ประมาณ ๓๐,๐๐๐ คำ). จากที่ได้ทดลองสุ่มตรวจดูแล้ว ผู้เขียนพบว่าคำส่วนใหญ่ใน%
พจนานุกรมฉบับราชบัณฑิตยสถานจะเป็นคำย่อยเสียส่วนใหญ่. ส่วนใหญ่จะเป็นคำที่มีจำนวน%
พยางค์อยู่ระหว่าง ๒-๔ พยางค์~\cite{ristat}. คำที่ใหญ่ขึ้น, หรือคำประสมนั้น ก็มัก%
จะเป็นคำที่มีใช้กันมานานและไม่ค่อยจะปรากฏให้เห็นในบทความที่เขียนขึ้นในปัจจุบัน.
ตัวอย่างเช่น ในพจนานุกรมฉบับราชบัณฑิตยสถานมีคำว่า ``ที่'', ``อยู่'', ``คุ้ม'',
``ค่า'', ``ทำ'', ``งาน'', ``ถุง'', ``มือ'', ``ตู้'', และ ``เย็น'', แต่ไม่มี%
คำว่า ``ที่อยู่'', ``คุ้มค่า'', ``ทำงาน'', ``ถุงมือ'', และ ``ตู้เย็น''.
การกำหนดคำเพื่อที่จะบรรจุในพจนานุกรมนั้นเป็นเรื่องที่จะต้องวิจัยกันอีกมาก. การ%
กำหนดคำอาจต้องคำนึงความถี่ของคำที่ปรากฏ ซึ่งอาจจะมองได้สองมุมที่ตรงข้ามกัน คือ:
๑) ความบ่อยครั้งของการใช้สายอักขระนั้นๆ น่าจะเป็นเกณฑ์ที่จะบอกว่านั่นคือ
``คำ'', กับ ๒) สายอักขระที่ไม่ค่อยปรากฏ มักจะยากแก่การใช้หรือเข้าใจ, ฉะนั้นควรจะ%
บันทึกไว้เป็น ``คำ''. การจะเลือกวิธีใดนั้น ขึ้นอยู่กับจุดประสงค์ในการเตรียม%
พจนานุกรมมากกว่า. แต่เราก็จำเป็นที่จะต้องอ้างอิงคำที่ได้จากทั้งสองวิธี. ผู้เขียน%
ได้เสนอการใช้วิธีการทางสถิติมาช่วยในการคัดเลือกคำตามความคิดที่หนึ่ง~%
\cite{virach:96}. วิธีการนี้จะให้รายการคำที่น่าจะบันทึกไว้ในพจนานุกรม โดยลำดับ%
ตามจำนวนครั้งที่ปรากฏในบทความนั้นๆ. ทั้งนี้ฝ่ายบัญญัติคำศัพท์จะต้องทำการคัดเลือก%
อีกครั้ง. ส่วนวิธีการสำหรับการคัดเลือกคำตามความคิดที่สองและการทำให้วิธีการที่%
หนึ่งเป็นไปอย่างมีประสิทธิภาพยิ่งขึ้นนั้น ก็เป็นหัวข้อที่จะต้องทำการวิจัยต่อไป.
นอกจากคำศัพท์แล้ว, ไวยากรณ์กับการใช้ภาษาก็เป็นหัวข้อที่เราจำเป็นต้องเอาใจใส่.
ผู้เขียนได้ยกปัญหาของการใช้ภาษา และสนับสนุนการใช้เครื่องหมายวรรคตอน เพื่อเป็นการ%
แก้ปัญหาวิธีหนึ่งมาแล้ว~\cite{sk}. เดิมที, ภาษาไทยนั้นยากต่อการที่จะเขียน%
ไวยากรณ์ให้ครอบคลุมอยู่แล้ว. ปัจจุบันนี้ภาษาไทยได้เปลี่ยนแปลงไป ยิ่งทำให้ยากต่อ%
การที่จะอธิบายลักษณะการใช้อย่างมีประสิทธิภาพได้. ทำให้ต้องมีข้อยกเว้นมากมาย.
วิธีการหนึ่งที่จะทำให้ภาษาเป็นไปตามกฏเกณฑ์ที่รัดกุมได้วิธีหนึ่งก็คือการอาศัย%
เครื่องหมายวรรคตอน เพื่อให้ผู้เขียนยึดและคำนึงถึงการเขียนให้เป็นประโยคและรัดกุม%
ได้. ผลที่ได้รับจากการพยายามที่จะให้ได้ภาษาที่อิงไวยากรณ์ที่ใกล้เคียงกัน จะทำให้%
สามารถรวบรวมการใช้ภาษาได้อย่างมีประสิทธิผล. ผู้เขียนจึงได้สนับสนุนการใช้เครื่องหมาย%
วรรคตอน และเสนอให้มีการรวบรวมคลังข้อความ. และเพื่อการแสดงให้เห็นถึงผลของการใช้%
ข้อมูลดังกล่าว, ผู้เขียนก็ได้แสดงผลของการใช้งานในโครงการ Emacs เพื่อภาษาไทย และ%
การใช้งานในการสร้างระบบเพื่อการแลกเปลี่ยนข้อมูลต่างภาษาในโครงการ UNL.
\section{แผนงาน ORCHID}
\textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ%
ร่วมกันพัฒนา ทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี%
จุดประสงค์หลักอยู่สองประการคือ เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้%
เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย.
แผนงานนี้จะรวมถึงการสร้างทรัพยากรทางภาษาโดยให้สอดคล้องตามมาตรฐาน, การศึกษา%
วิธีการใช้ข้อมูลทางภาษาเพื่อเป็นประโยชน์ต่อการประมวลผลภาษา, และการพัฒนาระบบ%
ประยุกต์เพื่อการใช้งานที่ประโยชน์ต่อสังคม. ทั้งสามประการนี้จะเป็นทั้งการสร้าง,
การค้นหาวิธีการ, และการตรวจสอบจากการใช้งานจริง. แผนงานนี้จึงถูกแบ่งออกเป็นสอง%
กลุ่ม คือ กลุ่มทรัพยากรพื้นฐาน (Basic Resources) และกลุ่มระบบประยุกต์
(Application Systems) ตามวัตถุประสงค๎ของการวิจัยและพัฒนา. โดยที่ทั้งสองกลุ่มจะ%
สนับสนุนซึ่งกันและกัน.
\begin{itemize}
\item \textbf{Basic Resources:} เป็นการสร้างทรัพยากรพื้นฐานประกอบด้วยสิ่งที่จะ%
นำไปใช้ในการศึกษาวิจัยลักษณะของภาษา, และสิ่งที่จะนำไปใช้เป็นองค์ประกอบหนึ่งในการ%
พัฒนาระบบประยุกต์.
\begin{itemize}
\item \textbf{Language Processing Library and Supporting Tools:}
เป็นการสร้างองค์ประกอบพื้นฐานทาง Software เพื่อให้สามารถสร้างโปรแกรมประยุกต์ได้%
รวดเร็วและอยู่บนมาตรฐานอันเดียวกันได้. จนถึงปัจจุบันส่วนใหญ่ผู้พัฒนาจะทำการพัฒนา%
กันอย่างอิสระ โดยไม่มีการแลกเปลี่ยน หรือรวบรวมเพื่อการแก้ปัญหาอย่างถูกต้อง.
เมื่อ Software ตัวหนึ่งหายไปจากตลาด, ประสบการณ์และวิธีการต่างๆ ก็หายไปกับ
Software ตัวนั้นด้วย.
\item \textbf{ORCHID POS Tagged Corpus~\cite{orchid,virach:98,virach:97}:}
เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการกำกับหน่วยที่เป็นคำพร้อมๆ กับหน้าที่%
ของคำๆ นั้น. ข้อมูลเหล่านี้จะใช้ในการศึกษา และให้ข้อมูลเกี่ยวกับการใช้คำในภาษา.
ปริมาณ, ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ.
\item \textbf{ORCHID Treebank:} เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการ%
กำกับโครงสร้างของประโยคพร้อมๆ กับหน้าที่ของคำๆ นั้นในประโยค. ข้อมูลเหล่านี้จะใช้%
ในการศึกษา, และให้ข้อมูลเกี่ยวกับการใช้คำในประโยคและในการสร้างประโยค. ปริมาณ,
ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ.
\item \textbf{Markup Language:} เป็นการสร้างภาษาเพื่อการกำกับ ซึ่งอาจจะอิง%
การกำกับแบบมาตรฐานสากล เช่น SGML หรือ XML ก็ได้. สิ่งที่ต้องทำคือการนิยามใน%
รายละเอียดปลีกย่อย ที่จำเป็นสำหรับการใช้งานในแต่ละด้าน. สิ่งที่สำคัญอย่างยิ่ง ก็%
คือในส่วนที่เกี่ยวกับภาษาไทย เช่น แบบฟอร์มจดหมาย, กาพย์, และกลอน เป็นต้น.
\item \textbf{Concept Alignment:} เป็นการสร้างระบบหน่วยความหมาย รวมถึง%
การนิยามหน่วยความหมายเพื่อการเชื่อมโยงคำระหว่างภาษาด้วย.
\end{itemize}
\item \textbf{Application Systems:} เป็นการสร้างระบบประยุกต์จากทรัพยากร%
พื้นฐาน และการใช้ผลจากการศึกษาทรัพยากรพื้นฐาน. ทั้งนี้จะเป็นตรวจสอบซึ่งกันและกัน%
ระหว่างทรัพยากรพื้นฐานที่ได้จากข้อมูลจริงกับระบบประยุกต์ที่ได้พัฒนาขึ้น.
\begin{itemize}
\item \textbf{UNL (Universal Networking Language):} เป็นโครงการเพื่อ%
การพัฒนาระบบสำหรับการแลกเปลี่ยนข้อมูลและข่าวสาร โดยไม่มีพรมแดนทางภาษา.
โครงการนี้ได้รวมถึงการใช้ข้อมูลและข่าวสารอย่างมีประสิทธิภาพด้วย เช่นการสืบค้น,
การย่อความ, และการนำเสนอ เป็นต้น.
\item \textbf{Emacs for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน%
ระบบ Editor ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. Emacs เป็น Editor ที่มีขีดความ%
สามารถสูงมากระบบหนึ่ง และตั้งแต่ version ที่ 20.1 เป็นต้นไป Emacs ยังได้รับการ%
พัฒนาให้รวมการประมวลผลแบบหลากภาษาจาก Mule (MULtilingual enhancement to GNU
Emacs) เข้าไปด้วย.
\item \textbf{LEX\textit{i}TRON:} เป็นการสร้างระบบพจนานุกรมที่สะท้อนจากข้อมูล%
จริง. พจนานุกรมฉบับนี้จะให้ข้อมูลทางด้านการใช้คำในการสร้างประโยค, มีการบอก%
หน้าที่ของคำอย่างชัดเจน และที่สำคัญคือการเข้าถึงคำศัพท์. ในอนาคตพจนานุกรมฉบับนี้%
จะให้ข้อมูลทั้งสองประเภทคือ ข้อมูลเพื่อการเขียน, และข้อมูลเพื่อการแต่งประโยค.
โดยจะคำนึงถึงผู้ใช้ที่เป็นเจ้าของภาษา และที่ไม่ใช่.
\item \textbf{\LaTeX\ for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน%
ระบบการจัดพิมพ์ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. ปัจจุบันมีบางส่วนที่ได้รับการ%
พัฒนาให้สามารถใช้งานได้บ้างแล้ว~\cite{tlatex}. บทความที่ท่านอ่านอยู่ในขณะนี้ก็%
จัดพิมพ์ด้วย \LaTeX\ ที่ได้รับการต่อเติมให้แสดงผลภาษาไทยได้. แม้ว่าระบบนี้จะใช้%
การได้ดีทีเดียว, แต่กระนั้นก็ตามผู้เขียนก็ ยังรู้สึกว่ายังมีอีกหลายสิ่งที่ต้อง%
พิจารณาแก้ไขและปรับปรุง.
\end{itemize}
\end{itemize}
ในที่นี้ผู้เขียนได้กล่าวถึงลักษณะทั่วไป, โดยไม่ลงในรายละเอียดของแต่ละหัวข้อ%
ย่อย, เนื่องจากจะทำให้ใช้เนื้อที่มากเกินไป. ผู้เขียนจะหาโอกาสเพื่อให้รายละเอียด%
ต่อไปข้างหน้า, หรือผู้ที่สนใจอาจจะแสดงความคิดเห็นมายังผู้เขียนโดยตรงก็ได้. ความ%
คิดเห็นต่างๆ จะทำให้สามารถปฎิบัติได้เร็วและถูกจุดประสงค์มากยิ่งขึ้น.
แผนงานที่กล่าวมาทั้งหมดนี้ไม่ใช่เป็นสิ่งที่ผู้เขียนต้องการพัฒนาเองทั้งหมด, หรือ%
เป็นเพียงสิ่งที่ผู้เขียนต้องการพัฒนาเท่านั้น. นี่เป็นเพียงการชี้ให้เห็นถึงแนว%
โน้ม และแนวทางที่เราสามารถปฎิบัติได้เพื่อจุดประสงค์หลักสองประการคือ
\textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรม%
ไทย.}
\section{บทส่งท้าย}
แผนงาน ORCHID ในบทความนี้เป็นการเริ่มต้นของผู้เขียน. บางโครงการก็กำลังดำเนินการ%
อยู่ บางโครงการก็ยังอยู่ในระยะเริ่มต้นที่ผู้เขียนได้ลงมือดำเนินการไปแล้วบ้าง,
และบางเรื่องก็ยังเพิ่งอยู่ในห้องทดลอง. ผู้เขียนจะได้นำแผนงานนี้เสนอต่อไปยัง%
องค์กรที่เกี่ยวข้อง. จุดประสงค์ของการนำเสนอครั้งนี้ก็เพื่อก่อให้เกิดความเข้าใจ,
จะได้ช่วยกันคิด, ช่วยกันส่งเสริมไปในแนวทางที่จะพัฒนาขึ้นได้ต่อๆ ไป. ผู้ใดสนใจ%
หรือต้องการแนะนำ, ติดต่อผู้เขียนได้ตาม email ข้างต้น หรือดูข้อมูลเพิ่มเติมได้%
ที่ http://www.links.nectec.or.th/virach/home.html.
\begin{thebibliography}{99}
\bibitem{sk}
วิรัช ศรเลิศล้ำวาณิช
\newblock ๒๕๔๑.
\newblock \emph{เราจะเขียนภาษาไทยให้สื่อความชัดเจนยิ่งขึ้นได้อย่างไร}
\newblock นิตยสารศักยภาพ.
\newblock สมาคมนักวิชาชีพไทยในญี่ปุ่น
\newblock ปีที่ ๕, ฉบับที่ ๒,
\newblock หน้า ๒๖--๓๔.
\bibitem{html}
\newblock http://www.utoronto.ca/webdocs/Official/intro.html.
\bibitem{sgml}
\newblock http://www.oasis-open.org/.
\bibitem{tlatex}
\newblock http://www.fedu.uec.ac.jp/ZzzThai/.
\bibitem{orchid}
\newblock http://www.links.nectec.or.th/orchid/.
\bibitem{xml}
\newblock http://www.personal.u-net.com/\~{ }sgml/xmlintro.htm.
\bibitem{ristat}
\newblock http://www.links.nectec.or.th/virach/research.html.
\bibitem{knuth:94}
Knuth,~D.~E.
\newblock 1994.
\newblock \emph{The \TeX book}
\newblock Addison-Wesley.
\bibitem{lamport:94}
Lamport,~L.
\newblock 1994.
\newblock \emph{\LaTeX\ A Document Preparation System}
\newblock Addison-Wesley.
\bibitem{sgml:90}
SGML User's Group.
\newblock 1990.
\newblock \emph{A Brief History of the Development of SGML}
\newblock http://www.sgmlsource.com/history/sgmlhist.htm.
\bibitem{virach:98}
Sornlertlamvanich,~V., Takahashi,~N. and Isahra,~H.
\newblock 1998.
\newblock \emph{Thai Part-Of-Speech Tagged Corpus: ORCHID.}
\newblock Proceedings of Oriental COCOSDA Workshop.
\newblock pp. 131--138.
\newblock http://www.links.nectec.or.th/virach/publication.html.
\bibitem{virach:97}
Sornlertlamvanich,~V., Charoenporn,~T. and Isahra,~H.
\newblock 1997.
\newblock \emph{ORCHID: Thai Part-Of-Speech Tagged Corpus.}
\newblock National Electronics and Computer Technology Center, Thailand.
\newblock TR-NECTEC-1997-001,
\newblock pp. 5--19.
\newblock http://www.links.nectec.or.th/virach/publication.html.
\bibitem{virach:96}
Sornlertlamvanich,~V. and Hozumi,~T.
\newblock 1996.
\newblock \emph{The Automatic Extraction of Open Compounds from
Text Corpora.}
\newblock COLING-96,
\newblock pp. 1143--1146.
\newblock http://www.links.nectec.or.th/virach/publication.html.
\bibitem{enc-ling:88}
Takashi,~K., Rokuro,~K. and Eiichi,~C.
\newblock 1988.
\newblock The Sanseido Encyclopaedia of Linguistics.
\end{thebibliography}
\end{document}