metadata {
authority_id: un id: 1972 language: iso-639-2:sin source_script: Sinh destination_script: Latn name: Romanization of Sinhalese -- UNGEGN 4.0 (1972) source: "Second United Nations Conference on the Standardization of Geographical Names. London, 10–31 May 1972. Vol. II. Technical papers, pp. 151–152." url: https://www.eki.ee/wgrs/rom1_ml.htm creation_date: 1972 confirmation_date: 2016 description: | There does not seem to exist any national systems of romanization for Sinhalese (Sinhala) in Sri Lanka. In 1972, D. N. Sharma prepared a romanization table for Sinhalese (Sinhala) which was published in vol. II of the conference report together with the other languages of the Indian group1. Sinhalese uses an alphasyllabic script whereby each character represents a syllable rather than one sound. Vowels and diphthongs are marked in two ways: as independent characters (used syllable-initially) and in an abbreviated form, to denote vowels after consonants. notes: - | The character ඇ was romanized as a͝i and the character ඈ as ai in Sharma's table, but there was no romanization for the character ඓ which, though rarely used, represents the ai proper of the Indian languages; here the romanization of these characters is given in accordance with the pronunciation. - | ැ ෑ Exceptions: රැ ræ̆, රෑ ræ. - | ු Exceptions: කූ kū, ගූ gū, තූ tū, භූ bhū, රූ rū, ශූ shū. - | ූ Exceptions: කූ kū, ගූ gū, තූ tū, භූ bhū, රූ rū, ශූ shū - | ් Marks absence of the inherent vowel. Special forms: ඛ් kh, ඞ් ṅ, ච් ch, ට් ṭ, ඩ් ḍ, ධ් dh, බ් b, ම් m, ව් v. - | ඛ ඝ ඞ ච ඡ ඣ ඤ ඨ ඪ ථ ධ ඵ භ ශ ෂ These consonants are used only in Sanskrit and Pali loanwords.
}
tests {
test "ශී්ර ලංකාවේ කී්රඩාව ඉතිහාසයේ ඉහළම තැනකට ගේන්න කටයුතු කරනවා", "shīra laṁkāve kīraḍāva itihāsaye ihaḷama tæ̆nakaṭa genna kaṭayutu karanavā" test "කොච්චිකඬේ මෝයකට අසල නෑමට ගිය තරුණයෝ ෩ක් මරුට - මිතුරාගේ උපන් දිනය සැමරීමට ඇවිත්", "kŏchchikaṇḍae moyakaṭa asala næmaṭa giya taruṇayo 3k maruṭa - miturāge upan dinaya sæ̆marīmaṭa æ̆vit" test "ලෝක ළමා දිනයදා සිසුන් පිරිසක් කසිප්පු බීලා", "loka ḷamā dinayadā sisun pirisak kasippu bīlā" test "කෝටි 16ක හෙරොයින් සමග දන්කොටුවේදී 7ක් දැලේ", "koṭi 16ka hĕrŏyin samaga dankŏṭuvedī 7k dæ̆le" test "මිනුවන්ගොඩ පීසීආර් දෙදහසක් සිදුකරයි", "minuvangŏḍa pīsīār dĕdahasak sidukarayi" test "පාස්කු ප්රහාරය වගේම පාස්කු ප්රෝඩාව ගැනත් සොයන්න කොමිසමක් පත්කළ යුතුයි - විපක්ෂ නායක සජිත් පේ්රමදාස", "pāsku parahāraya vagema pāsku proḍāva gæ̆nat sŏyanna kŏmisamak patkaḷa yutuyi - vipakṣha nāyaka sajit peramadāsa" test "ට්රම්ප්ගේ සෞඛ්යය තීරණාත්මකයි - ට්විටර් හරහා ජනතාව අමතයි", "ṭarampge saukhyaya tīraṇātmakayi - ṭviṭar harahā janatāva amatayi" test "පාස්කු දා ප්රහාරය පිළිබඳ පරීක්ෂණවලින් කිසිවකුට අසාධාරණයක් වීමට ඉඩ දෙන්නේ නෑ - අගමැති", "pāsku dā parahāraya piḷibanda parīkṣhaṇavalin kisivakuṭa asādhāraṇayak vīmaṭa iḍa dĕnne næ - agamæ̆ti" test "දිල්ලි කැපිටල්ස් සහ කෝලිගේ බැංගලෝර් තෙවැනි ජය ලබයි", "dilli kæ̆piṭals saha kolige bæ̆ṁgalor tĕvæ̆ni jaya labayi" test "ශ්රී ලාංකික සම්භවයක් සහිත ප්රංශයේ පවුලක 5 ක් ඝාතනය කරලා", "sharī lāṁkika sambhavayak sahita paraṁshaye pavulaka 5 k ghātanaya karalā" test "පැතිකුදය ඉක්මනින් සුව කරන ප්රතිකාර", "pæ̆tikudaya ikmanin suva karana paratikāra"
}
aliases {
def_alias sinh_chars_1, any("\u0dcf\u0dd0\u0dd1\u0dd2\u0dd3\u0dd4\u0dd6\u0dd8\u0df2\u0dd9\u0dda\u0ddb\u0ddc\u0ddd\u0dde\u0dca")
}
stage {
# RULES sub "ක", "k", after: sinh_chars_1 sub "ඛ", "kh", after: sinh_chars_1 sub "ග", "g", after: sinh_chars_1 sub "ඝ", "gh", after: sinh_chars_1 sub "ඞ", "ṅ", after: sinh_chars_1 sub "ච", "ch", after: sinh_chars_1 sub "ඡ", "chh", after: sinh_chars_1 sub "ජ", "j", after: sinh_chars_1 sub "ඣ", "jh", after: sinh_chars_1 sub "ඤ", "ñ", after: sinh_chars_1 sub "ට", "ṭ", after: sinh_chars_1 sub "ඨ", "ṭh", after: sinh_chars_1 sub "ඩ", "ḍ", after: sinh_chars_1 sub "ඪ", "ḍh", after: sinh_chars_1 sub "ණ", "ṇ", after: sinh_chars_1 sub "ත", "t", after: sinh_chars_1 sub "ථ", "th", after: sinh_chars_1 sub "ද", "d", after: sinh_chars_1 sub "ධ", "dh", after: sinh_chars_1 sub "න", "n", after: sinh_chars_1 sub "ප", "p", after: sinh_chars_1 sub "ඵ", "ph", after: sinh_chars_1 sub "බ", "b", after: sinh_chars_1 sub "භ", "bh", after: sinh_chars_1 sub "ම", "m", after: sinh_chars_1 sub "ය", "y", after: sinh_chars_1 sub "ර", "r", after: sinh_chars_1 sub "ල", "l", after: sinh_chars_1 sub "ව", "v", after: sinh_chars_1 sub "ශ", "sh", after: sinh_chars_1 sub "ෂ", "ṣh", after: sinh_chars_1 sub "ස", "s", after: sinh_chars_1 sub "හ", "h", after: sinh_chars_1 sub "ෆ", "f", after: sinh_chars_1 sub "ළ", "ḷ", after: sinh_chars_1 # CHARACTERS parallel { # I. Independent vowel characters sub "අ", "a" sub "ආ", "ā" sub "ඇ", "æ̆" sub "ඈ", "æ" sub "ඉ", "i" sub "ඊ", "ī" sub "උ", "u" sub "ඌ", "ū" sub "ඍ", "ṛ" sub "ඎ", "ṝ" sub "එ", "ĕ" sub "ඒ", "e" sub "ඓ", "ai" sub "ඔ", "ŏ" sub "ඕ", "o" sub "ඖ", "au" # II. Abbreviated vowel characters and other symbols sub "ා", "ā" sub "ැ", "æ̆" sub "ෑ", "æ" sub "ි", "i" sub "ී", "ī" sub "ු", "u" sub "ූ", "ū" sub "ෘ", "ṛ" sub "ෲ", "ṝ" sub "ෙ", "ĕ" sub "ේ", "e" sub "ෛ", "ai" sub "ො", "ŏ" sub "ෝ", "o" sub "ෞ", "au" sub "ඃ", "ḥ" sub "ං", "ṁ" sub "්", "" # III. Consonant characters sub "ක", "ka" sub "ඛ", "kha" sub "ග", "ga" sub "ඝ", "gha" sub "ඞ", "ṅa" sub "ච", "cha" sub "ඡ", "chha" sub "ජ", "ja" sub "ඣ", "jha" sub "ඤ", "ña" sub "ට", "ṭa" sub "ඨ", "ṭha" sub "ඩ", "ḍa" sub "ඪ", "ḍha" sub "ණ", "ṇa" sub "ත", "ta" sub "ථ", "tha" sub "ද", "da" sub "ධ", "dha" sub "න", "na" sub "ප", "pa" sub "ඵ", "pha" sub "බ", "ba" sub "භ", "bha" sub "ම", "ma" sub "ය", "ya" sub "ර", "ra" sub "ල", "la" sub "ව", "va" sub "ශ", "sha" sub "ෂ", "ṣha" sub "ස", "sa" sub "හ", "ha" sub "ෆ", "fa" sub "ළ", "ḷa" # Prenasalized sounds sub "ඟ", "ṅga" sub "ඦ", "ñja" sub "ඬ", "ṇḍa" sub "ඳ", "nda" sub "ඹ", "mba" # Other ligatures sub "ක්", "k" sub "ඥ", "jña" sub "න්", "n" # numbers sub "\u0DE6", "0" sub "\u0DE7", "1" sub "\u0DE8", "2" sub "\u0DE9", "3" sub "\u0DEA", "4" sub "\u0DEB", "5" sub "\u0DEC", "6" sub "\u0DED", "7" sub "\u0DEE", "8" sub "\u0DEF", "9" sub "", "" # Used for joining sub "", "" # Used for non joining } compose
}