前後文脈（漢字）	前後文脈（POJ）
去日本食壽司	khì Ji̍t-pún tsia̍h sú-sih
香港、澳門...、臺灣佮日本	Hiong-káng, Ò-mn̂g...Tâi-uân kah Ji̍t-pún
的時，日本義工共臺灣人	ê sî, Ji̍t-pún gī-kang kā Tâi-uân-lâng

漢字	POJ
紲落	suà-lo̍h
來看	lâi-khuànn
新竹市	Sin-tik-tshī
明仔載	bîn-á-tsài
二十六	gī-tsap-lak
號	hō
的	ê
天氣	thinn-khì


kanji_array:	`["做工課", "的", "Lín--sàng", "。"]`
roman_array:	`["tsò-khang-khuè", "ê", "Lín--sàng", "."]`
roman_kanji_array	`[["tsò-khang-khuè", "做工課"], ["ê", "的"], ["Lín--sàng", "Lín--sàng"], [".", "。"]]`

RubyWorld Conference 2025

Parslet DSL 基礎語法

基本構文

`rule()` - 規則の定義

rule(:letter) { match['a-zA-Z'] }
rule(:digit) { match['0-9'] }

意味: 再利用可能な Parser 規則を定義

`match[]` - 文字クラス

match['a-z']           # a-z
match['a-zA-Z0-9']     # 英数字
match['\u0300-\u036F'] # 声調記号

意味: Regular Expressionの [...] と同じ

`str()` - 文字列マッチ

str('-')      # ハイフン
str('--')     # 二重ハイフン
str(' - ')    # スペース-ハイフン-スペース

意味: 文字列の完全一致

組み合わせ

`>>` - シーケンス

# A の後に B が続く
rule(:word) { letter >> letter }

意味: 順序を持つ連結（AND）

`|` - 選択

# A または B（順序が重要！）
rule(:token) do
  double_hyphen_word |  # 先に試す
  hyphenated_word       # 後で試す
end

重要: PEG は最初にマッチした選択肢を採用

`.repeat` - 繰り返し

match['a-z'].repeat      # 0回以上
match['a-z'].repeat(1)   # 1回以上

AST 構築

`.as(:symbol)` - 命名

# Token に型を付ける
rule(:word) {
  letter.repeat(1).as(:word)
}

# 出力される AST
{ word: "hello" }

意味: AST で識別するための名前

`root()` - 開始規則

# Parser の入口を指定
rule(:sentence) {
  token >> space?
}
root(:sentence)

意味: どの規則から解析を始めるか指定

コードのように台湾語を解析

Rubyによる白話字ローマ字の3段階解析

RubyWorld Conference 2025

島根県立産業交流会館「くにびきメッセ」Nov. 7, 2025

自己紹介

RubyCityMATSUE 縁結びの地との10年の物語

5xRubyについて

5xRubyの事業

1. 委託開発サービス

2. SOSI製品

アジェンダ

本日の内容

スライド資料

https://rwc2025.ryudo.tw （日本語）

https://rwc2025.ryudo.tw/en （English）

無人入札の物語

台湾政府案件の特殊性

技術の制約

プロセスの問題

隠れたコスト

8連敗からの学び

落選の理由（技術以外）

9回目：驚きの展開

落札後の真相

台羅（POJ）とは？

台羅（台湾閩南語ローマ字）とは？

台湾語のローマ字表記

中国語（北京語）ではない

日本語と台湾語の文字システム

日本語のシステム

台湾語のシステム

実際の分詞アライメント処理例

分詞アライメント処理の実装

実装の全体フロー：3つのPhase

Phase 1: 正規化 (WASH)

washed_kanji - 漢字側

washed_roman - POJ側

Phase 2-1: splitted_kanji - 漢字の分割

実装コード

処理説明

実行例

Phase 2-2: splitted_roman - POJの分割

実装コード

処理説明

実行例

Phase 3: 対齊と検証

処理説明

Parserとの出会い

金子さんのトークからの気づき

Conference Driven Development

Parslet gem との出会(であ)い

なぜ Parslet？

Parslet の設計思想

Parslet DSL 基礎語法

基本構文

rule() - 規則の定義

match[] - 文字クラス

str() - 文字列マッチ

組み合わせ

>> - シーケンス

| - 選択

.repeat - 繰り返し

AST 構築

.as(:symbol) - 命名

root() - 開始規則

Regexp → Parslet への変換（GSUB パターンから Parser 規則へ）

標点符号の処理

GSUB 方式

Parslet 方式

Regexp → Parslet への変換（連字符処理と音節数による漢字対応）

連字符の保持（Page 17）

GSUB 方式

Parslet 方式

Ruby Parser との比較(ひかく)

Ruby Parser (Prism)

台羅 Parser (RomanParserPure)

漢字処理は POJ Parser に依存

POJ Parser（複雑）

漢字処理（シンプル）

RomanParserPure の実装を試してみよう

`rule()` - 規則の定義

`match[]` - 文字クラス

`str()` - 文字列マッチ

`>>` - シーケンス

`|` - 選択

`.repeat` - 繰り返し

`.as(:symbol)` - 命名

`root()` - 開始規則