\documentclass[letter]{article}

\textwidth=16cm
\oddsidemargin=0cm
\evensidemargin=0cm
\topmargin=-2.5cm
\textheight=23cm

\newsavebox{\savepar}
\newenvironment{boxit}{\begin{lrbox}{\savepar}
    \begin{minipage}[b]{\textwidth}}
    {\end{minipage}\end{lrbox}\fbox{\usebox{\savepar}}}

\usepackage[thai,thainumber]{babel}
\usepackage{fonts-tlwg}

\title{
  \textbf{ทรัพยากรเปิดทางภาษาสู่ความร่วมมือของการวิจัยและพัฒนา}\\
  \textbf{The Open linguistic Resources CHanelled toward
  InterDisciplinary research (ORCHID)}
}
\author{
  ดร.วิรัช ศรเลิศล้ำวาณิช\\
  ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ\\
  กระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม\\
  {\latintext\ttfamily virach@links.nectec.or.th, http://www.links.nectec.or.th/virach/home.html}
}
\date{\today}

\begin{document}

\bibliographystyle{srt}

\maketitle

\section{บทนำ}

\textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ%
ร่วมกันพัฒนาทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี%
จุดประสงค์หลักอยู่สองประการคือ \textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษา%
ไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย.}

เราตระหนักดีถึงความสำคัญของภาษา ซึ่งนอกจากจะเป็นสื่อระหว่างคนกับคนแล้ว ยังเป็น%
รูปแทนความคิด และเป็นเครื่องมือในการใช้ความคิดด้วย. เครือข่ายคอมพิวเตอร์%
ในปัจจุบันทำให้ข้อมูลข่าวสารแพร่หลายไปอย่างรวดเร็ว. เครื่องมือที่ใช้ในการแสดงผล%
และการเตรียมข้อมูลข่าวสารนั้น จึงเป็นสิ่งจำเป็น. ด้วยเทคโนโลยีที่ก้าวหน้าไป%
อย่างรวดเร็ว, การที่เพียงจะสามารถแสดงผลได้หรือป้อนข้อมูลได้เท่านั้น ไม่เป็นที่%
เพียงพออีกแล้ว. การแสดงผลที่สวยงามถูกต้องตามแบบแผน หรือการเตรียมข้อมูลได้อย่าง%
ถูกต้อง และรวดเร็วจึงเป็นสิ่งที่จำเป็นที่จะต้องพัฒนาให้ทันตามการเปลี่ยนแปลงของ%
เทคโนโลยี.

ทรัพยากรทางภาษานอกจากจะเป็นแหล่งข้อมูลที่สำคัญแล้ว ยังเป็นปัจจัยที่สำคัญอันหนึ่ง%
สำหรับการศึกษาธรรมชาติของภาษา ซึ่งรวมถึงไวยากรณ์, คำศัพท์, และลักษณะของภาษา. 
ฉะนั้น \textit{การรวบรวมข้อมูลอย่างมีระบบ} จึงมีความสำคัญยิ่ง. การศึกษาธรรมชาติ%
ของภาษาได้ก้าวหน้าไปมากพร้อมๆ กับการพัฒนาของระบบคอมพิวเตอร์และอัลกอริทึมในการ%
คำนวณ. ความเอื้ออำนวยของเทคโนโลยีทางการประมวลผลทำให้เราสามารถศึกษาลักษณะของภาษา%
ได้จากข้อมูลปริมาณมากๆ ได้ในเวลาอันรวดเร็ว. ผลที่ได้คือเราสามารถสรุปความรู้ทาง%
ภาษาจากข้อมูลจริงได้อย่างแม่นยำและครอบคลุม. ซึ่งผิดจากเมื่อในอดีตที่จำเป็นต้อง%
พิจารณาจากความรู้ของตนเองเป็นหลัก, ศึกษาได้แต่ในวงแคบๆ และไม่สามารถตรวจสอบ%
ความถูกต้องได้อย่างครอบคลุม. ฉะนั้น \textbf{\textit{การรวบรวมข้อมูลที่มีปริมาณ%
มากพอและทันสมัย}} จึงเป็นปัจจัยสำคัญอีกอย่างหนึ่ง.

จากแนวโน้มของการพัฒนาของเทคโนโลยีสารสนเทศ และเพื่อการเตรียมพร้อมเพื่อการ%
วิจัยและพัฒนาดังที่กล่าวมาข้างต้น, ผู้เขียนได้คิดถึงแนวทางอันหนึ่งในการที่จะ%
ส่งเสริมการพัฒนาโดยอาศัยมันสมองจากผู้รู้ผ่านเครือข่ายที่กำลังแพร่หลายอยู่ในทุก%
วันนี้. ในบทความนี้ ผู้เขียนจึงได้เสนอแนวคิดของแผนงาน \textbf{ORCHID (The Open 
linguistic Resources CHanelled toward InterDisciplinary research)} ที่ได้รวมการ%
เตรียมพร้อมของข้อมูลและการประยุกต์ใช้งานเข้าด้วยกัน, เพื่อรองรับการพัฒนาของ%
เทคโนโลยีสารสนเทศสู่อนาคต.

\section{ข่าวสารบนเครือข่าย}

ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ ๑) ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไป%
สามารถเข้าถึงระบบได้โดยง่าย, และ ๒) การพัฒนาของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือ%
ข่าย ดังเช่น Web browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย%
ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและรวดเร็ว. HTML (HyperText
Markup Language)~\cite{html} ได้ถูกกำหนดขึ้นมาเพื่อใช้ในการกำกับข้อความที่จะ%
สื่อสารกันบนระบบ WWW. HTML เป็นภาษาที่แตกแขนงออกมาจากต้นตำรับของภาษาเพื่อการ%
กำกับ (markup language) ที่รู้จักกันดีในชื่อของ SGML (Standard Generalized
Markup Language)~\cite{sgml}. การใช้ภาษาเพื่อการกำกับนี้จะทำให้ข้อความ%
อิเล็กทรอนิกส์ (eletronic text) มีลักษณะพิเศษ คือ เป็นข้อความที่ไม่ขึ้นกับระบบ%
จัดการ ซึ่งหมายความว่าทุกระบบ, ที่เข้าใจในมาตรฐานของภาษาเพื่อการกำกับ, จะสามารถ%
แสดงผลข้อมูลได้อย่างเหมาะสม. บางระบบอาจจะขึ้นบรรทัดใหม่ ดังในรูปที่~%
\ref{fig:htmlout1} หรือบางระบบอาจจะย่อหน้า ดังในรูปที่~\ref{fig:htmlout2} เมื่อ%
มีการกำกับย่อหน้า ดังเช่นในรูปที่~\ref{fig:html}. แต่ละระบบอาจจะใช้ตัวอักษรขนาด%
ต่างๆ กันในการแสดงผลหัวข้อในระดับต่างๆ กันด้วยก็ได้.

\begin{figure}[htbp]
  \begin{center}
    \begin{boxit}
    \begin{quote}
%      \footnotesize
      \scriptsize
      \sffamily

\hspace*{-3em}
{\LARGE \textbf{ข่าวสารบนเครือข่าย}}\\

\hspace*{-3em}
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ\\
  ๑. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย%
\\
  ๒. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ%
สืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{1em}
     และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\

      \end{quote}
      \end{boxit}
    \caption{ตัวอย่างการแสดงผลแบบที่หนึ่ง}
    \label{fig:htmlout1}
  \end{center}
\end{figure}

\begin{figure}[htbp]
  \begin{center}
    \begin{boxit}
    \begin{quote}
      \scriptsize
      \sffamily

\hspace*{-3em}
{\LARGE \textbf{\underline{ข่าวสารบนเครือข่าย}}}\\

%\hspace*{2em}
ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก%
สาเหตุที่สำคัญสองประการคือ\\
%\hspace*{2em}
  ก. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย%
\\
%\hspace*{2em}
  ข. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ%
สืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{1em}
     และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\

      \end{quote}
      \end{boxit}
    \caption{ตัวอย่างการแสดงผลแบบที่สอง}
    \label{fig:htmlout2}
  \end{center}
\end{figure}

\begin{figure}[htbp]
  \begin{center}
    \begin{boxit}
      \scriptsize
      
      <html>\\
      <head>\\
      <title>\\
      ข่าวสารบนเครือข่าย\\
      </title>\\
      </head>\\

      <body>\\
      <h1>\\
      ข่าวสารบนเครือข่าย\\
      </h1>\\

      <p> ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็%
เนื่องมาจากสาเหตุที่สำคัญสองประการคือ 

      <ol>\\
      <li> ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้%
โดยง่าย\\
      <li> พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, 
ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูล%
และข่าวสารได้อย่างแม่นยำและรวดเร็ว.\\
      </ol>\\

      </body>\\
      </html>\\

    \end{boxit}
    \caption{ข้อความที่กำกับสำหรับ HTML}
    \label{fig:html}
  \end{center}
\end{figure}

ความคิดในการใช้เครื่องหมายร่วมเพื่อการกำกับ (Generic Markup) นั้น เกิดขึ้นมานาน%
แล้ว, ตั้งแต่ที่ William Tunnicliffe ได้เสนอต่อที่ประชุมสำนักพิมพ์ของรัฐใน%
แคนนาดาเมื่อเดือนกันยายน ๒๕๑๐~\cite{sgml:90}. เมื่อเข้าทศวรรษที่ ๗๐, ก็เริ่มมี%
ระบบที่ใช้เครื่องหมายร่วมเพื่อการกำกับเกิดขึ้น, และที่รู้จักกันแพร่หลายก็คือ 
Scribe ของ Brian Reid, \TeX~\cite{knuth:94} ของ Knuth, \LaTeX~\cite{lamport:94} 
ซึ่งเป็นการผนวกชุดคำสั่งที่เขียนตามลักษณะของ Scribe โดยนิยามให้เป็น macro ของ 
\TeX, และ nroff/troff ซึ่งเป็นรุ่นถัดจาก RUNOFF ที่นิยมใช้กันมากบนระบบ UNIX.

\begin{figure}[htbp]
  \begin{center}
    \begin{boxit}
    \begin{quote}
      \scriptsize

\hspace*{-3em}
$\backslash$section\{ข่าวสารบนเครือข่าย\}

\hspace*{-3em}
$\backslash$par ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้ง%
นี้ก็เนื่องมาจากสาเหตุที่สำคัญสองประการคือ

\hspace*{-3em}
$\backslash$begin\{itemize\}\\
\hspace*{-3em}
$\backslash$item ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึง%
ระบบได้โดยง่าย\\
\hspace*{-3em}
$\backslash$item พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web
browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย,\\
\hspace*{-3em}
และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ%
รวดเร็ว.\\
\hspace*{-3em}
$\backslash$end\{itemize\}\\

      \end{quote}
      \end{boxit}
    \caption{ข้อความที่กำกับสำหรับ \TeX\ หรือ \LaTeX}
    \label{fig:latex}
  \end{center}
\end{figure}


\begin{figure}[ht]
  \begin{center}
    \begin{boxit}
    \begin{quote}
      \scriptsize

\hspace*{-3em}
.TH PWD 1L "GNU Shell Utilities" "FSF" $\backslash$" -*- nroff -*-\\
\hspace*{-3em}
.SH NAME\\
\hspace*{-3em}
pwd $\backslash$- print name of current/working directory\\
\hspace*{-3em}
.SH SYNOPSIS\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
.br\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
\{$\backslash$-$\backslash$-help,$\backslash$-$\backslash$-version\}\\
\hspace*{-3em}
.SH DESCRIPTION\\
\hspace*{-3em}
This manual page documents the GNU version of\\
\hspace*{-3em}
.BR pwd .\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
prints the fully resolved name of the current directory. That is, all 
components of the printed name will\\
\hspace*{-3em}
be actual directory names $\backslash$-$\backslash$- none will be symbolic 
links.\\
\hspace*{-3em}
.PP\\
\hspace*{-3em}
Note that most Unix shells provide a built-in\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
command with similar functionality so the unadorned, interactive\\
\hspace*{-3em}
.B pwd\\
\hspace*{-3em}
command will usually execute the built-in version and not this one.\\
\hspace*{-3em}
.SS OPTIONS\\
\hspace*{-3em}
.TP\\
\hspace*{-3em}
.I "$\backslash$-$\backslash$-help"\\
\hspace*{-3em}
Print a usage message on standard output and exit successfully.\\
\hspace*{-3em}
.TP\\
\hspace*{-3em}
.I "$\backslash$-$\backslash$-version"\\
\hspace*{-3em}
Print version information on standard output then exit successfully.\\

      \end{quote}
      \end{boxit}
    \caption{ข้อความที่กำกับสำหรับ nroff}
    \label{fig:nroff}
  \end{center}
\end{figure}

ดูเหมือนว่า \LaTeX\ จะประสบความสำเร็จในการแยกข้อมูลที่บอกโครงสร้างของบทความ%
ออกจากข้อมูลที่เป็นเนื้อของบทความ. แต่อย่างไรก็ตามสัญลักษณ์ในการกำกับของ 
\LaTeX\ ก็ยังเป็น macro ที่ประกอบด้วยชุดของคำสั่ง ซึ่งผู้ใช้สามารถเลือกกำกับด้วย%
คำสั่งได้โดยตรง. เหล่านี้เป็นตัวที่ทำให้ \TeX\ หรือ \LaTeX\ มีส่วนที่จะต้องขึ้น%
อยู่กับระบบอีก.

ภาษาเพื่อการกำกับที่คาดหวังกันไว้นั้น จะเป็นตัวกำกับโครงสร้างของข้อความเพื่อให้%
ระบบสามารถจัดพิมพ์ หรือ แสดงผลได้ตามรูปแบบของตนเอง โดยไม่มีส่วนที่ต้องขึ้นกับ%
ระบบอีกต่อไป. ปัจจุบันนี้มีการกำหนดมาตรฐานของภาษาเพื่อการกำกับขึ้นมาใหม่, เรียก%
ว่า XML (eXtensible Markup Language)~\cite{xml} เพื่อให้สะดวกต่อการใช้มากขึ้น%
กว่า SGML. XML เป็น subset ของ SGML, เป็นภาษาที่ออกแบบไว้เพื่อใช้ในการสื่อสารบน%
เครือข่ายโดยเฉพาะ. XML ต่างจาก SGML ตรงที่มีการคำนึงถึงปัญหาต่างๆ ซึ่งอาจจะเกิด%
ขึ้นได้ในระหว่างการติดต่อผ่านเครือข่าย. XML จึงมีความยืดหยุ่นมากในการกำกับ และ%
ผู้ใช้สามารถกำกับให้รวบรวมข้อความหรือข้อมูลจากที่ต่างๆ พร้อมทั้งบอกลักษณะของข้อ%
ความหรือข้อมูลเหล่านั้นได้ด้วย. เหล่านี้ทำให้ XML เหมาะสำหรับการบันทึกข้อมูล 
เนื่องจากว่ามีความยืดหยุ่นพอที่จะสามารถอธิบายโครงสร้างทางตรรกศาสตร์ (logical 
structure) ของข้อความต่างๆ ได้, ไม่ว่าจะเป็นแบบฟอร์ม (form), บันทึก (memo), 
จดหมาย (letter), รายงาน (report), หนังสือ (book), สารานุกรม (encyclopedia), 
พจนานุกรม (dictionary) หรือฐานข้อมูล (database).

ผู้เขียนจึงขอสรุปไว้ในตอนท้ายของบทนี้ว่า ในการบันทึกข้อมูลต่อไปในอนาคตนั้น, เรา%
จำเป็นต้องคำนึงถึงเงื่อนไขในการใช้งานบนเครือข่ายด้วย. เครือข่ายที่พูดถึงตรงนี้ก็%
เป็นเครือข่ายสากล (Global Network; World Wide Web), ไม่ได้จำกัดอยู่เพียงเครือ%
ข่ายท้องถิ่น (Local Area Network) อีกต่อไปแล้ว. การจัดเก็บข้อมูลที่เหมาะสมนั้นก็%
ควรจะต้องมีเนื้อหาของข้อความ (plain text) และข้อมูลของโครงสร้างทางตรรกศาสตร์ 
(logical structure) กำกับไว้เพื่อที่จะให้ข้อมูลนั้นๆ เป็นอิสระจากอุปกรณ์ 
(device) และระบบ (system). การจัดเก็บข้อมูลในลักษณะนี้จะแตกต่างจากวิธีการเก็บแบบ%
เก่า ที่ไม่ได้แยกข้อมูลสำหรับบอกลักษณะของการจัดพิมพ์ หรือแสดงผลออกจากข้อความ, 
ดังเช่นไฟล์ข้อมูลที่ใช้ใน Wordprocessor ทั่วไป, nroff/troff, หรือที่เป็นเพียงบาง%
ส่วน ดังเช่นไฟล์ข้อมูลที่ใช้ใน \TeX\ หรือ \LaTeX\ ตามที่กล่าวไว้ข้างต้น 
เป็นต้น. การเก็บข้อมูลด้วยวิธีหลังนี้ค่อนข้างตรง, สะดวกต่อการแก้ไขและแสดงผล. แต่%
เนื่องจากข้อความประเภทนี้จะมีแต่ข้อมูลที่เกี่ยวกับลักษณะของการแสดงผลเท่านั้น, 
ไม่มีข้อมูลที่เกี่ยวกับโครงสร้าง หรือข้อมูลที่แสดงความสัมพันธ์ภายในข้อความ จึง%
ไม่เหมาะที่จะใช้ในการประมวลผล. การแสดงผลนั้นจะต้องขึ้นอยู่กับระบบเป็นส่วนใหญ่ 
และเมื่อเกิดการแก้ไขการแสดงผลผู้ใช้ก็จำเป็นที่จะต้องแก้ไขรายละเอียดทั้งหมดให้สอด%
คล้องกัน.

\section{ความเป็นจริงของภาษาที่สะท้อนจากข้อมูลจริง}

กล่าวกันว่าในโลกนี้มีภาษาที่ใช้กันอยู่มากกว่า ๓,๕๐๐ ภาษา~\cite{enc-ling:88}, 
ภาษาที่ตายไปแล้วก็มีอยู่มาก. ``ภาษาเป็น'' เท่านั้นที่ยังมีการเปลี่ยนแปลงอยู่. 
ในที่นี้ผู้เขียนจะไม่กล่าวถึงทฤษฎีหรือไวยากรณ์ของภาษา, แต่จะชี้ให้เห็นถึงความ%
สำคัญในการที่จะต้องศึกษาภาษาจากที่ใช้กันอยู่จริง.

ขณะนี้เรามีพจนานุกรมให้เลือกใช้กันอยู่มากมาย. กระนั้นก็ตามพจนานุกรมที่เรายึดถือ%
ใช้กันเป็นหลักอยู่ในตอนนี้ก็คือ พจนานุกรมฉบับราชบัณฑิตยสถาน. อาจเป็นเพราะว่าเป็น%
พจนานุกรมที่ได้รับการกลั่นกรองและตรวจสอบอย่างระมัดระวังมากที่สุดฉบับหนึ่ง จึงได้%
รับการอ้างอิงมาก, โดยเฉพาะในการตรวจสอบความถูกต้องของภาษาไทย. แต่ไม่ว่าจะเนื่อง%
ด้วยสาเหตุใดก็ตาม, จำนวนคำศัพท์ที่ปรากฏอยู่ในฉบับ พ.ศ.๒๕๒๕ นั้นยังมีอยู่จำกัด%
มาก (ประมาณ ๓๐,๐๐๐ คำ). จากที่ได้ทดลองสุ่มตรวจดูแล้ว ผู้เขียนพบว่าคำส่วนใหญ่ใน%
พจนานุกรมฉบับราชบัณฑิตยสถานจะเป็นคำย่อยเสียส่วนใหญ่. ส่วนใหญ่จะเป็นคำที่มีจำนวน%
พยางค์อยู่ระหว่าง ๒-๔ พยางค์~\cite{ristat}. คำที่ใหญ่ขึ้น, หรือคำประสมนั้น ก็มัก%
จะเป็นคำที่มีใช้กันมานานและไม่ค่อยจะปรากฏให้เห็นในบทความที่เขียนขึ้นในปัจจุบัน. 
ตัวอย่างเช่น ในพจนานุกรมฉบับราชบัณฑิตยสถานมีคำว่า ``ที่'', ``อยู่'', ``คุ้ม'', 
``ค่า'', ``ทำ'', ``งาน'', ``ถุง'', ``มือ'', ``ตู้'', และ ``เย็น'', แต่ไม่มี%
คำว่า ``ที่อยู่'', ``คุ้มค่า'', ``ทำงาน'', ``ถุงมือ'', และ ``ตู้เย็น''.

การกำหนดคำเพื่อที่จะบรรจุในพจนานุกรมนั้นเป็นเรื่องที่จะต้องวิจัยกันอีกมาก. การ%
กำหนดคำอาจต้องคำนึงความถี่ของคำที่ปรากฏ ซึ่งอาจจะมองได้สองมุมที่ตรงข้ามกัน คือ: 
๑) ความบ่อยครั้งของการใช้สายอักขระนั้นๆ น่าจะเป็นเกณฑ์ที่จะบอกว่านั่นคือ 
``คำ'', กับ ๒) สายอักขระที่ไม่ค่อยปรากฏ มักจะยากแก่การใช้หรือเข้าใจ, ฉะนั้นควรจะ%
บันทึกไว้เป็น ``คำ''. การจะเลือกวิธีใดนั้น ขึ้นอยู่กับจุดประสงค์ในการเตรียม%
พจนานุกรมมากกว่า. แต่เราก็จำเป็นที่จะต้องอ้างอิงคำที่ได้จากทั้งสองวิธี. ผู้เขียน%
ได้เสนอการใช้วิธีการทางสถิติมาช่วยในการคัดเลือกคำตามความคิดที่หนึ่ง~%
\cite{virach:96}. วิธีการนี้จะให้รายการคำที่น่าจะบันทึกไว้ในพจนานุกรม โดยลำดับ%
ตามจำนวนครั้งที่ปรากฏในบทความนั้นๆ. ทั้งนี้ฝ่ายบัญญัติคำศัพท์จะต้องทำการคัดเลือก%
อีกครั้ง. ส่วนวิธีการสำหรับการคัดเลือกคำตามความคิดที่สองและการทำให้วิธีการที่%
หนึ่งเป็นไปอย่างมีประสิทธิภาพยิ่งขึ้นนั้น ก็เป็นหัวข้อที่จะต้องทำการวิจัยต่อไป.

นอกจากคำศัพท์แล้ว, ไวยากรณ์กับการใช้ภาษาก็เป็นหัวข้อที่เราจำเป็นต้องเอาใจใส่. 
ผู้เขียนได้ยกปัญหาของการใช้ภาษา และสนับสนุนการใช้เครื่องหมายวรรคตอน เพื่อเป็นการ%
แก้ปัญหาวิธีหนึ่งมาแล้ว~\cite{sk}. เดิมที, ภาษาไทยนั้นยากต่อการที่จะเขียน%
ไวยากรณ์ให้ครอบคลุมอยู่แล้ว. ปัจจุบันนี้ภาษาไทยได้เปลี่ยนแปลงไป ยิ่งทำให้ยากต่อ%
การที่จะอธิบายลักษณะการใช้อย่างมีประสิทธิภาพได้. ทำให้ต้องมีข้อยกเว้นมากมาย. 
วิธีการหนึ่งที่จะทำให้ภาษาเป็นไปตามกฏเกณฑ์ที่รัดกุมได้วิธีหนึ่งก็คือการอาศัย%
เครื่องหมายวรรคตอน เพื่อให้ผู้เขียนยึดและคำนึงถึงการเขียนให้เป็นประโยคและรัดกุม%
ได้. ผลที่ได้รับจากการพยายามที่จะให้ได้ภาษาที่อิงไวยากรณ์ที่ใกล้เคียงกัน จะทำให้%
สามารถรวบรวมการใช้ภาษาได้อย่างมีประสิทธิผล. ผู้เขียนจึงได้สนับสนุนการใช้เครื่องหมาย%
วรรคตอน และเสนอให้มีการรวบรวมคลังข้อความ. และเพื่อการแสดงให้เห็นถึงผลของการใช้%
ข้อมูลดังกล่าว, ผู้เขียนก็ได้แสดงผลของการใช้งานในโครงการ Emacs เพื่อภาษาไทย และ%
การใช้งานในการสร้างระบบเพื่อการแลกเปลี่ยนข้อมูลต่างภาษาในโครงการ UNL.

\section{แผนงาน ORCHID}

\textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ%
ร่วมกันพัฒนา ทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี%
จุดประสงค์หลักอยู่สองประการคือ เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้%
เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย.

แผนงานนี้จะรวมถึงการสร้างทรัพยากรทางภาษาโดยให้สอดคล้องตามมาตรฐาน, การศึกษา%
วิธีการใช้ข้อมูลทางภาษาเพื่อเป็นประโยชน์ต่อการประมวลผลภาษา, และการพัฒนาระบบ%
ประยุกต์เพื่อการใช้งานที่ประโยชน์ต่อสังคม. ทั้งสามประการนี้จะเป็นทั้งการสร้าง, 
การค้นหาวิธีการ, และการตรวจสอบจากการใช้งานจริง. แผนงานนี้จึงถูกแบ่งออกเป็นสอง%
กลุ่ม คือ กลุ่มทรัพยากรพื้นฐาน (Basic Resources) และกลุ่มระบบประยุกต์ 
(Application Systems) ตามวัตถุประสงค๎ของการวิจัยและพัฒนา. โดยที่ทั้งสองกลุ่มจะ%
สนับสนุนซึ่งกันและกัน.

\begin{itemize}
\item \textbf{Basic Resources:} เป็นการสร้างทรัพยากรพื้นฐานประกอบด้วยสิ่งที่จะ%
นำไปใช้ในการศึกษาวิจัยลักษณะของภาษา, และสิ่งที่จะนำไปใช้เป็นองค์ประกอบหนึ่งในการ%
พัฒนาระบบประยุกต์.
  \begin{itemize}
  \item \textbf{Language Processing Library and Supporting Tools:} 
เป็นการสร้างองค์ประกอบพื้นฐานทาง Software เพื่อให้สามารถสร้างโปรแกรมประยุกต์ได้%
รวดเร็วและอยู่บนมาตรฐานอันเดียวกันได้. จนถึงปัจจุบันส่วนใหญ่ผู้พัฒนาจะทำการพัฒนา%
กันอย่างอิสระ โดยไม่มีการแลกเปลี่ยน หรือรวบรวมเพื่อการแก้ปัญหาอย่างถูกต้อง. 
เมื่อ Software ตัวหนึ่งหายไปจากตลาด, ประสบการณ์และวิธีการต่างๆ ก็หายไปกับ 
Software ตัวนั้นด้วย.
  \item \textbf{ORCHID POS Tagged Corpus~\cite{orchid,virach:98,virach:97}:} 
เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการกำกับหน่วยที่เป็นคำพร้อมๆ กับหน้าที่%
ของคำๆ นั้น. ข้อมูลเหล่านี้จะใช้ในการศึกษา และให้ข้อมูลเกี่ยวกับการใช้คำในภาษา. 
ปริมาณ, ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ.
  \item \textbf{ORCHID Treebank:} เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการ%
กำกับโครงสร้างของประโยคพร้อมๆ กับหน้าที่ของคำๆ นั้นในประโยค. ข้อมูลเหล่านี้จะใช้%
ในการศึกษา, และให้ข้อมูลเกี่ยวกับการใช้คำในประโยคและในการสร้างประโยค. ปริมาณ, 
ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ.
  \item \textbf{Markup Language:} เป็นการสร้างภาษาเพื่อการกำกับ ซึ่งอาจจะอิง%
การกำกับแบบมาตรฐานสากล เช่น SGML หรือ XML ก็ได้. สิ่งที่ต้องทำคือการนิยามใน%
รายละเอียดปลีกย่อย ที่จำเป็นสำหรับการใช้งานในแต่ละด้าน. สิ่งที่สำคัญอย่างยิ่ง ก็%
คือในส่วนที่เกี่ยวกับภาษาไทย เช่น แบบฟอร์มจดหมาย, กาพย์, และกลอน เป็นต้น.
  \item \textbf{Concept Alignment:} เป็นการสร้างระบบหน่วยความหมาย รวมถึง%
การนิยามหน่วยความหมายเพื่อการเชื่อมโยงคำระหว่างภาษาด้วย.
  \end{itemize}
\item \textbf{Application Systems:} เป็นการสร้างระบบประยุกต์จากทรัพยากร%
พื้นฐาน และการใช้ผลจากการศึกษาทรัพยากรพื้นฐาน. ทั้งนี้จะเป็นตรวจสอบซึ่งกันและกัน%
ระหว่างทรัพยากรพื้นฐานที่ได้จากข้อมูลจริงกับระบบประยุกต์ที่ได้พัฒนาขึ้น.
  \begin{itemize}
  \item \textbf{UNL (Universal Networking Language):} เป็นโครงการเพื่อ%
การพัฒนาระบบสำหรับการแลกเปลี่ยนข้อมูลและข่าวสาร โดยไม่มีพรมแดนทางภาษา. 
โครงการนี้ได้รวมถึงการใช้ข้อมูลและข่าวสารอย่างมีประสิทธิภาพด้วย เช่นการสืบค้น, 
การย่อความ, และการนำเสนอ เป็นต้น.
  \item \textbf{Emacs for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน%
ระบบ Editor ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. Emacs เป็น Editor ที่มีขีดความ%
สามารถสูงมากระบบหนึ่ง และตั้งแต่ version ที่ 20.1 เป็นต้นไป Emacs ยังได้รับการ%
พัฒนาให้รวมการประมวลผลแบบหลากภาษาจาก Mule (MULtilingual enhancement to GNU
Emacs) เข้าไปด้วย.
  \item \textbf{LEX\textit{i}TRON:} เป็นการสร้างระบบพจนานุกรมที่สะท้อนจากข้อมูล%
จริง. พจนานุกรมฉบับนี้จะให้ข้อมูลทางด้านการใช้คำในการสร้างประโยค, มีการบอก%
หน้าที่ของคำอย่างชัดเจน และที่สำคัญคือการเข้าถึงคำศัพท์. ในอนาคตพจนานุกรมฉบับนี้%
จะให้ข้อมูลทั้งสองประเภทคือ ข้อมูลเพื่อการเขียน, และข้อมูลเพื่อการแต่งประโยค. 
โดยจะคำนึงถึงผู้ใช้ที่เป็นเจ้าของภาษา และที่ไม่ใช่.
  \item \textbf{\LaTeX\ for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน%
ระบบการจัดพิมพ์ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. ปัจจุบันมีบางส่วนที่ได้รับการ%
พัฒนาให้สามารถใช้งานได้บ้างแล้ว~\cite{tlatex}. บทความที่ท่านอ่านอยู่ในขณะนี้ก็%
จัดพิมพ์ด้วย \LaTeX\ ที่ได้รับการต่อเติมให้แสดงผลภาษาไทยได้. แม้ว่าระบบนี้จะใช้%
การได้ดีทีเดียว, แต่กระนั้นก็ตามผู้เขียนก็ ยังรู้สึกว่ายังมีอีกหลายสิ่งที่ต้อง%
พิจารณาแก้ไขและปรับปรุง.
  \end{itemize}
\end{itemize}

ในที่นี้ผู้เขียนได้กล่าวถึงลักษณะทั่วไป, โดยไม่ลงในรายละเอียดของแต่ละหัวข้อ%
ย่อย, เนื่องจากจะทำให้ใช้เนื้อที่มากเกินไป. ผู้เขียนจะหาโอกาสเพื่อให้รายละเอียด%
ต่อไปข้างหน้า, หรือผู้ที่สนใจอาจจะแสดงความคิดเห็นมายังผู้เขียนโดยตรงก็ได้. ความ%
คิดเห็นต่างๆ จะทำให้สามารถปฎิบัติได้เร็วและถูกจุดประสงค์มากยิ่งขึ้น.

แผนงานที่กล่าวมาทั้งหมดนี้ไม่ใช่เป็นสิ่งที่ผู้เขียนต้องการพัฒนาเองทั้งหมด, หรือ%
เป็นเพียงสิ่งที่ผู้เขียนต้องการพัฒนาเท่านั้น. นี่เป็นเพียงการชี้ให้เห็นถึงแนว%
โน้ม และแนวทางที่เราสามารถปฎิบัติได้เพื่อจุดประสงค์หลักสองประการคือ 
\textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรม%
ไทย.}

\section{บทส่งท้าย}

แผนงาน ORCHID ในบทความนี้เป็นการเริ่มต้นของผู้เขียน. บางโครงการก็กำลังดำเนินการ%
อยู่ บางโครงการก็ยังอยู่ในระยะเริ่มต้นที่ผู้เขียนได้ลงมือดำเนินการไปแล้วบ้าง, 
และบางเรื่องก็ยังเพิ่งอยู่ในห้องทดลอง. ผู้เขียนจะได้นำแผนงานนี้เสนอต่อไปยัง%
องค์กรที่เกี่ยวข้อง. จุดประสงค์ของการนำเสนอครั้งนี้ก็เพื่อก่อให้เกิดความเข้าใจ, 
จะได้ช่วยกันคิด, ช่วยกันส่งเสริมไปในแนวทางที่จะพัฒนาขึ้นได้ต่อๆ ไป. ผู้ใดสนใจ%
หรือต้องการแนะนำ, ติดต่อผู้เขียนได้ตาม email ข้างต้น หรือดูข้อมูลเพิ่มเติมได้%
ที่ http://www.links.nectec.or.th/virach/home.html.

\begin{thebibliography}{99}

\bibitem{sk}
  วิรัช ศรเลิศล้ำวาณิช
  \newblock ๒๕๔๑.
  \newblock \emph{เราจะเขียนภาษาไทยให้สื่อความชัดเจนยิ่งขึ้นได้อย่างไร}
  \newblock นิตยสารศักยภาพ.
  \newblock สมาคมนักวิชาชีพไทยในญี่ปุ่น
  \newblock ปีที่ ๕, ฉบับที่ ๒,
  \newblock หน้า ๒๖--๓๔.

\bibitem{html}
  \newblock http://www.utoronto.ca/webdocs/Official/intro.html.

\bibitem{sgml}
  \newblock http://www.oasis-open.org/.

\bibitem{tlatex}
  \newblock http://www.fedu.uec.ac.jp/ZzzThai/.

\bibitem{orchid}
  \newblock http://www.links.nectec.or.th/orchid/.

\bibitem{xml}
  \newblock http://www.personal.u-net.com/\~{ }sgml/xmlintro.htm.

\bibitem{ristat}
  \newblock http://www.links.nectec.or.th/virach/research.html.

\bibitem{knuth:94}
  Knuth,~D.~E.
  \newblock 1994.
  \newblock \emph{The \TeX book}
  \newblock Addison-Wesley.

\bibitem{lamport:94}
  Lamport,~L.
  \newblock 1994.
  \newblock \emph{\LaTeX\ A Document Preparation System}
  \newblock Addison-Wesley.

\bibitem{sgml:90}
  SGML User's Group.
  \newblock 1990.
  \newblock \emph{A Brief History of the Development of SGML}
  \newblock http://www.sgmlsource.com/history/sgmlhist.htm.

\bibitem{virach:98}
  Sornlertlamvanich,~V., Takahashi,~N. and Isahra,~H.
  \newblock 1998.
  \newblock \emph{Thai Part-Of-Speech Tagged Corpus: ORCHID.}
  \newblock Proceedings of Oriental COCOSDA Workshop.
  \newblock pp. 131--138.
  \newblock http://www.links.nectec.or.th/virach/publication.html.

\bibitem{virach:97}
  Sornlertlamvanich,~V., Charoenporn,~T. and Isahra,~H.
  \newblock 1997.
  \newblock \emph{ORCHID: Thai Part-Of-Speech Tagged Corpus.}
  \newblock National Electronics and Computer Technology Center, Thailand.
  \newblock TR-NECTEC-1997-001,
  \newblock pp. 5--19.
  \newblock http://www.links.nectec.or.th/virach/publication.html.

\bibitem{virach:96}
  Sornlertlamvanich,~V. and Hozumi,~T.
  \newblock 1996.
  \newblock \emph{The Automatic Extraction of Open Compounds from
                  Text Corpora.}
  \newblock COLING-96,
  \newblock pp. 1143--1146.
  \newblock http://www.links.nectec.or.th/virach/publication.html.

\bibitem{enc-ling:88}
  Takashi,~K., Rokuro,~K. and Eiichi,~C.
  \newblock 1988.
  \newblock The Sanseido Encyclopaedia of Linguistics.

\end{thebibliography}

\end{document}