Текст на тайском языке: Чтение — Тайский язык

Содержание

Чтение — Тайский язык

В этом уроке рассмотрены следующие темы: Чтение и понимание текстов. Если Вы хотите попрактиковаться в чтении, то это страница Вам поможет. Она содержит два раздела. Один раздел содержит текст на Тайский язык, а второй раздел — на Русский. Начните читать первый текст и проверьте, как много Вы понимаете. Если вам нужен словарь, он находится здесь:.

Чтение

Чтение — Тайский язык
ข้อ 26
1) ทุกคนมีสิทธิในการศึกษา การศึกษาจะต้องให้เปล่าอย่างน้อยในชั้นประถมศึกษาและการศึกษาชั้นหลักมูล การประถมศึกษาจะต้องเป็นการบังคับ การศึกษาทางเทคนิคและวิชาอาชีพ จะต้องเป็นอันเปิดโดยทั่วไป และการศึกษาชั้นสูงขึ้นไปก็จะต้องเป็นอันเปิดสำหรับทุกคนเข้าได้ถึงโดยเสมอภาคตามมูลฐานแห่งคุณวุฒิ
2) การศึกษาจะได้จัดไปในทางพัฒนาบุคลิกภาพของมนุษย์อย่างเต็มที่และยังความเคารพต่อสิทธิมนุษยชน และอิสรภาพหลักมูลให้มั่นคงแข็งแรง จะต้องส่งเสริมความเข้าใจ ขันติธรรม และมิตรภาพระหว่างบรรดาประชาชาติ กลุ่มเชื้อชาติ หรือศาสนา และจะต้องส่งเสริมกิจกรรมของ สหประชาชาติ เพื่อการธำรงไว้ซึ่งสันติภาพ
3) บิดามารดา มีสิทธิเบื้องแรกที่จะเลือกชนิดของการศึกษาอันจะให้แก่บุตรของตน
ข้อ 27
1) ทุกคนมีสิทธิที่จะเข้าร่วมในชีวิตทางวัฒนธรรมของประขาคมโดยอิสระ ที่จะบันเทิงใจในศิลปะและที่จะมีส่วนในความรุดหน้า และ คุณประโยชน์ทางวิทยาศาสตร์
2) ทุกคนมีสิทธิที่จะได้รับการคุ้มครองผลประโยชน์ทางศีลธรรมและทางวัตถุ อันเป็นผลจากประดิษฐกรรมใด ๆ ทางวิทยาศาสตร์ วรรณกรรมและศิลปกรรม ซึ่งตนเป็นผู้สร้าง
Русский Перевод
Статья 26
1) Каждый человек имеет право на образование. Образование должно быть бесплатным по меньшей мере в том, что касается начального и общего образования. Начальное образование должно быть обязательным. Техническое и профессиональное образование должно быть общедоступным, и высшее образование должно быть одинаково доступным для всех на основе способностей каждого.
2) Образование должно быть направлено к полному развитию человеческой личности и к увеличению уважения к правам человека и основным свободам. Образование должно содействовать взаимопониманию, терпимости и дружбе между всеми народами, расовыми и религиозными группами, и должно содействовать деятельности Организации Объединенных Наций по поддержанию мира.
3) Родители имеют право приоритета в выборе вида образования для своих малолетних детей.
Статья 27
1) Каждый человек имеет право свободно участвовать в культурной жизни общества, наслаждаться искусством, участвовать в научном прогрессе и пользоваться его благами.
2) Каждый человек имеет право на защиту его моральных и материальных интересов, являющихся результатом научных, литературных или художественных трудов, автором которых он является.

Мы надеемся, что этот урок помог Вам с грамматикой и словарным запасом по теме: Чтение и понимание текстов. Мы также надеемся, что теперь у Вас нет трудностей с их использованием. После окончания этого урока Вы можете перейти к главной странице по этой ссылке и выбрать другие курсы: Изучение — Тайский язык

Уроки:

Алфавит

Фразы

Прилагательные

Тайский

Числа

Глаголы

Выражения

Главная страница

Предлоги

Перевод

Клавиатура

Ссылки, приведенные выше, являются лишь небольшим образцом наших уроков. Откройте меню слева, чтобы увидеть все ссылки.

Распознавание тайского текста — Convertio

Преобразование отсканированных документов и изображений на тайском языке в редактируемые форматы вывода Word, Pdf, Excel и Txt (простой текст)

Доступно страниц: 10 (Вы уже использовали 0 страниц)

Если вам нужно распознать больше страниц, пожалуйста, зарегистрируйтесь

Загрузите файлы для распознавания или перетащите их на эту страницу

Выберите файлы

Поддерживаемые форматы файлов:

pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp

Выберите все языки, используемые в документе

Выберите основной язык. ..ТайскийАнглийский—————-АфрикаансАлбанскийАрабский (Саудовская Аравия)Армянский (восточный)Армянский (западный)Азербайджанский (Кириллица)Азербайджанский (Латиница)БаскскийБелорусскийБолгарскийКаталанскийСебуанскийКитайский упрощенныйКитайский традиционныйХорватскийЧешскийДатскийНидерландскийНидерландский (Бельгия)ЭсперантоЭстонскийФиджиФинскийФранцузскийГалисийскийНемецкийГреческийГавайскийИвритВенгерскийИсландскийИндонезийскийИрландскийИтальянскийЯпонскийКазахскийКиргизскийКонгоКорейскийКурдскийЛатинскийЛатышскийЛитовскийМакедонскийМалайский (Малайзия)МальтийскийНорвежский (Букмол)ПольскийПортугальскийПортугальский (Бразилия)РумынскийРусскийШотландскийСербский (Кириллица)Сербский (Латиница)СловацкийСловенскийСомалиИспанскийСуахилиШведскийТагальскийТаитиТаджикскийТатарскийТурецкийТуркменскийУйгурский (Кириллица)Уйгурский (Латиница)УкраинскийУзбекский (Кириллица)Узбекский (Латиница)ВьетнамскийВаллийский

Выберите дополнительные языки…ТайскийАнглийский—————-АфрикаансАлбанскийАрабский (Саудовская Аравия)Армянский (восточный)Армянский (западный)Азербайджанский (Кириллица)Азербайджанский (Латиница)БаскскийБелорусскийБолгарскийКаталанскийСебуанскийКитайский упрощенныйКитайский традиционныйХорватскийЧешскийДатскийНидерландскийНидерландский (Бельгия)ЭсперантоЭстонскийФиджиФинскийФранцузскийГалисийскийНемецкийГреческийГавайскийИвритВенгерскийИсландскийИндонезийскийИрландскийИтальянскийЯпонскийКазахскийКиргизскийКонгоКорейскийКурдскийЛатинскийЛатышскийЛитовскийМакедонскийМалайский (Малайзия)МальтийскийНорвежский (Букмол)ПольскийПортугальскийПортугальский (Бразилия)РумынскийРусскийШотландскийСербский (Кириллица)Сербский (Латиница)СловацкийСловенскийСомалиИспанскийСуахилиШведскийТагальскийТаитиТаджикскийТатарскийТурецкийТуркменскийУйгурский (Кириллица)Уйгурский (Латиница)УкраинскийУзбекский (Кириллица)Узбекский (Латиница)ВьетнамскийВаллийский

Формат и настройки выбора

Документ Microsoft Word (. docx)Microsoft Excel Workbook (.xlsx)Microsoft Excel 97-2003 Workbook (.xls)Microsoft PowerPoint Presentation (.pptx)Searchable PDF Document (.pdf)Text Document (.txt)RTF Document (.rtf)CSV Document (.csv)Electornic Publication (.epub)Xml формат хранения книг (.fb2)DjVu Document (.djvu)

Все страницы

Номера страниц

Как распознать текст на тайском языке?

Шаг 1

Загрузите изображения или PDF-файлы

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу

Шаг 2

Выберите выходной формат

Выберите .doc или любой другой формат, который вам нужен в результате (поддерживается больше 10 текстовых форматов)

Шаг 3

Конвертируйте и скачивайте

Нажмите «Распознать», и вы можете сразу загрузить распознанный текстовый файл на тайском языке

Тайский Преобразование текста в речь | Play.ht

Используйте тайский генератор голоса для преобразования текста в речь. Преобразуйте текст в голос на тайском языке с помощью AI и загрузите аудиофайлы в формате MP3 или WAV.

Попробуйте!

Оценка Отлично на Trustpilot

Нам доверяют более 7000 пользователей и команд всех размеров

5 Преобразование текста в речь с тайским акцентом (TTS Thai)

WaveNet, IBM Watson и Microsoft Azure.

Тайский
  5 голосов

Реалистичные голоса

Это самые реалистичные и естественно звучащие голоса, созданные с использованием искусственного интеллекта и машинного обучения.

ACHARA

NIWAT

Premwadee

Стандартные голоса

Высококачественные голоса, которые не звучат Robotic, построены Computer Alg.

 

Кван

 

 

Паттара

 

Как преобразовать текст в речь с тайским акцентом?

1. Введите или импортируйте текст.

С помощью нашего тайского генератора голоса вы можете набирать или импортировать текст и преобразовывать его в речь за считанные секунды.

2. Выберите «Тайский» и выберите голос.

На ваш выбор 5 мужских и женских голосов с тайским акцентом.

3. Предпросмотр аудио.

Предварительный просмотр звука, изменение тембра голоса и произношения перед преобразованием текста в речь.

4. Нажмите «Преобразовать в речь» и загрузите аудиофайл.

Наш онлайн-генератор голоса с искусственным интеллектом преобразует ваш текст в высококачественную тайскую речь всего за несколько секунд. Теперь вы можете скачать свой аудиофайл в форматах MP3 или WAV.

Часто задаваемые вопросы

Play.ht — это идеальная платформа для создателей контента, фрилансеров, предприятий и агентств, которые хотят быстро и качественно создавать аудио для преобразования текста в речь на тайском языке. Даже отдельные люди могут значительно повысить свою продуктивность, слушая веб-статьи на ходу.

Наше онлайн-программное обеспечение для преобразования текста в речь работает молниеносно и может конвертировать ваш тайский текст в речь всего за несколько секунд.

Наше онлайн-программное обеспечение для преобразования текста в речь поддерживает более 142 языков и акцентов.

Да, премиальные планы дают вам полные коммерческие права на использование сгенерированные аудиофайлы для монетизации ваших тайских видео на YouTube, и для любых других коммерческих целей.

Вы можете экспортировать тайские аудиофайлы в форматы MP3 и WAV.

Отзывы покупателей

Лучший рейтинг на Trustpilot, G2 и AppSumo

Исключительно

Команда обслуживания была исключительной и очень помогла мне в решении бизнес-задач. Обязательно воспользуюсь снова, если понадобится!

Кайл Ремаль — Trustpilot

Удивительный преобразование текста в речь

Интерфейс чистый, лаконичный, очень простой и интуитивно понятный в использовании. Попробовав множество других, Play.ht стал моим фаворитом №1. Множество высококачественных голосов с естественным звучанием на выбор…

Николас Натто — Trustpilot

Play.ht лучший!

Сначала я попробовал более крупные компании и отметил сравнение с этим удивительным веб-сайтом. Голоса настолько реальны, что удивительно, насколько искусственный интеллект сейчас. Не тратьте время на Polly, Azure или Cloud; это ваше программное обеспечение для преобразования текста в голос.

Эбигейл Вальехо — Trustpilot

Так просто в использовании!

Мне было легко использовать Play.ht и добавлять его на свой веб-сайт. Я НЕ разбираюсь в компьютерах, поэтому я ценю простоту этого продукта. Я считаю, что это поможет мне немного выделиться среди моих сверстников.

Dena — AppSumo

Play. htText to Speech Voices

Thai Text to Speech

Тайские требования к макету (черновик)

Thai Layout Requests (черновик)

В этом документе описываются требования к компоновке и представлению текста на тайском языке с использованием тайского письма, когда они используются веб-стандартами и технологиями, такими как HTML, CSS, Mobile Web, Digital Publications и Unicode.

В этом документе описаны основные требования к тайскому языку с использованием раскладки тайского письма и поддержки текста в Интернете и в электронных книгах. Эти требования предоставляют информацию для веб-технологий, таких как CSS, HTML и цифровые публикации о том, как поддерживать носителей тайского языка. В настоящее время в документе основное внимание уделяется тайскому языку, используемому для тайского языка. Информация здесь разработана в сочетании с документом, в котором обобщаются пробелы в поддержке тайского языка в Интернете.

Редакторский черновик этого документа разрабатывается Рабочей группой по компоновке Юго-Восточной Азии, входящей в группу W3C Internationalization Interest Group. Он публикуется Рабочей группой по интернационализации. Конечной целью этого документа является записка рабочей группы.

Отправка комментариев к этому документу

Если вы хотите высказать комментарии относительно этого документа, отправьте их как вопросы на github. Отправляйте комментарии по электронной почте только в том случае, если вы не можете поднимать вопросы на github (см. ссылки ниже). Все комментарии приветствуются.

Чтобы упростить отслеживание комментариев, создайте отдельные вопросы или электронные письма для каждого комментария и укажите URL-адресом раздел, который вы комментируете.

Введение

Об этом документе

В этом документе описываются некоторые особенности, связанные с макетом тайского текста, используемого для тайского языка, которые могут быть полезной справочной информацией для тех, кто читает документы по анализу пробелов и проблемы для авторов тайского контента. Он не отвечает потребностям других языков, написанных тайским шрифтом.

Этот документ является первоначальным проектом и нуждается в тщательном рассмотрении тайскими экспертами.

Анализ пробелов

На этот документ указывает отдельный документ, Thai Gap Analysis, в котором описываются пробелы в поддержке тайского языка в Интернете, а также расставляется приоритеты и описывается влияние этих пробелов на пользователя.

При обнаружении неподдерживаемой функции в процессе анализа пробелов необходимо документировать требования к этой функции. В этом документе описаны эти требования.

Этот документ не должен содержать ссылок на конкретную технологию. Например, не следует говорить «CSS делает/не делает то-то и то-то» и не должно описывать, как технология, такая как CSS, должна реализовывать требования. Он не зависит от технологии, поэтому он будет всегда актуальным, и он просто описывает, как работает сценарий. Документ по анализу пробелов является подходящим местом для всех видов информации по конкретным технологиям.

Терминология

Определения различных терминов, используемых в этом документе, можно найти в этом глоссарии.

Другие сопутствующие ресурсы

Документ International text layout and typeography index (известный неофициально как text layout index) указывает на этот и другие документы и предоставляет разработчикам и исполнителям центральное место для поиска информации, относящейся к различным скриптам.

W3C также поддерживает систему отслеживания, которая имеет ссылки на проблемы github в репозиториях W3C. Существуют отдельные ссылки для (а) запросов от разработчиков к сообществу пользователей для получения информации о том, как работают скрипты/языки, (б) проблем, связанных со спецификацией, и (в) ошибок браузера. Например, вы можете узнать, какую информацию в данный момент ищут разработчики, а полученный список также можно отфильтровать с помощью скрипта.

Исходным материалом для этого документа была отредактированная копия части описания тайской орфографии того же автора.

Обзор тайского письма

Тайская орфография — abugida. Согласным буквам присущ гласный звук. Знаки гласных присоединяются к согласной, чтобы произвести другую гласную.

Текст на тайском языке располагается слева направо горизонтальными линиями.

Пробелы разделяют фразы, а не слова.

Каждый согласный с началом соответствует высокому, среднему или низкому классу тона. Тон обозначается комбинацией класса согласных, типа слога (отмеченный/неотмеченный) и любого знака тона.

Для групп согласных не используются конъюнкты.

Группы согласных в начале слога и согласных в конце слога записываются обычными согласными буквами. Поэтому может быть трудно алгоритмически определить границы слогов.

Присущий гласный произносится внутри закрытого слога, а в открытом слоге. Несобственные гласные представлены с помощью знаков гласных. Символы, используемые для обозначения гласных и дифтонгов, включают комбинированные знаки, гласные буквы и согласные. Есть глифы перед базовыми гласными. Тайский использует визуальное размещение: только компоненты знака гласных, которые появляются выше или ниже согласного, являются объединяющими знаками; остальные обычные, интервалы между буквами

набирается в порядке просмотра .

Независимых гласных нет, а отдельные гласные звуки записываются с помощью знаков гласных, применяемых к อ [U+0E2D THAI CHARACTER O ANG].

Тайский язык имеет большое количество составных гласных (включая дифтонги), состоящих из специальных символов гласных и согласных. Составные гласные могут включать до 4 символов (плюс знак тона), а символы могут окружать базовый согласный с трех сторон, например. เกี๊ยะ kía̯ʔ гэта (обувь)

Тайский вокалист.

Тайский язык имеет родные цифры, и они широко используются.

Направление текста

Тайский пишется горизонтально слева направо.

Формирование и расположение глифов

Орфография не различается по регистру, и для преобразования символов не требуется никаких специальных преобразований. Печатный текст также не курсив.

Стили шрифтов

В современных стилях шрифтов часто отсутствуют петли, характерные для более традиционных шрифтов. См. статью, в которой это подробно рассматривается.

Loopless считается более современным и современным, и в основном используется для рекламы и титров. Различие не обязательно совпадает с различием между шрифтами с засечками и без — например, Noto предоставляет тайские шрифты с засечками и без, но оба они имеют циклы. С другой стороны, Neue Frutiger Thai предлагает традиционные (петлевые) и современные (без петель) альтернативы как часть одного и того же семейства шрифтов (каждый из которых имеет как обычные, курсивные, так и полужирные подстили).

В шрифте Silom используются традиционные зацикленные глифы. В шрифте Sukhumvit Set используются современные незацикленные глифы.

Формирование и позиционирование на основе контекста

Тайский язык не имеет стекового или конъюнктивного поведения, но ниже приведены несколько избранных примеров контекстуального формирования и позиционирования.

Большинство комбинированных символов в тайском языке используются для знаков гласных и тональных знаков. Комбинированные символы должны быть размещены в разных позициях в соответствии с визуальным контекстом. В приведенном ниже примере показан один и тот же символ тона, отображаемый на разной высоте в зависимости от того, что находится под ним.

Одна и та же метка тона отображается на разной высоте.

Тайский регулярно сочетает в себе несколько сочетающихся символов над основной согласной. В приведенном ниже тексте есть два примера, оба из которых показывают базовый символ со знаком гласной, а затем знак тона сверху.

Несколько диакритических знаков (знак гласной + знак тона) прикреплены к одному и тому же основному символу.

Несмотря на то, что в тайском языке очень мало способов формирования, [[[#fig_shaping]]] показывает ряд небольших адаптаций глифов, которые встречаются в некоторых шрифтах (здесь, Noto Serif Thai), когда к определенным высоким или глубоким согласным буквам прикреплены знаки гласных. . 2 примера слева показывают небольшое уменьшение нисходящей протяженности глифа согласного; в средних 2-х примерах часть глифа согласного, лежащая ниже базовой линии, вообще удалена и заменена знаком гласного; а в самом правом примере высота глифа согласного уменьшается, когда над ним появляется знак гласного.

Изменение формы тайского шрифта Noto Serif. В каждом примере слева показан неукрашенный согласный глиф, а справа — фигурная версия с прикрепленным знаком гласной.

Стиль и вес шрифта

Митчелл описывает, как курсив используется для метатекста и для передачи голоса «о», а не для выделения или названий вещей (для которых используется жирный шрифт).

Курсив, как правило, применяется к целым абзацам или группам абзацев, например, к подписям к изображениям, авторам и другим меткам, комментариям, резюме, таким как статьи в журналах или новостях, и указателям. Он также регулярно используется для прямой речи между кавычками.

Графемы

Графема — воспринимаемая пользователем единица текста. Текстовые операции, в которых графемы используются как единицы текста, включают разрыв строки, удаление вперед, перемещение и выбор курсора, подсчет символов, интервал между текстом, вставку текста, выравнивание по ширине, преобразование регистра и сортировку. Стандарт Unicode использует обобщенные правила для определения «кластеров графем», которые приблизительно соответствуют вероятным границам графем в системе письма, однако они плохо работают со многими сложными сценариями.

Несочетаемые символы тайских гласных обрабатываются как независимые кластеры графем. Только объединяющиеся символы группируются вместе с их базой в кластер.

Графемные кластеры

База SARA_AM? Знак_объединения*

Комбинированные метки могут включать в себя ноль или более следующих типов символов, сгруппированных по меткам, которые соответствуют значениям категории слоговых категорий Unicode Indic.

  1. Зависимые гласные [9] (см. Комбинированные знаки, используемые для обозначения гласных) В тайском есть много составных гласных, которые состоят из комбинаций обычных буквенных символов и сочетаний знаков, сгруппированных вокруг основы, но в современном тайском языке только один из этих зависимых гласных используется на базу. (В других языках может использоваться более одного. Буквенные символы представляют собой обычные символы пробела, которые вручную позиционируются в текстовом потоке.)
  2. Знаки тона [4] (см. Тоны) Знаки тона следует вводить и хранить сразу после зависимой гласной, если она есть, и сразу после основы в противном случае.
  3. Убийца согласных (májtʰantʰákʰâːt) [1] (см. Согласные без следующей гласной) Используется после других элементов в кластере графем для обозначения отмены согласного или слога.

Буквы-промежутки, используемые для знаков гласных, представляют собой отдельные кластеры графем, за исключением    [U+0E33 THAI CHARACTER SARA AM] (см. Sara AM и nikhahit), который имеет общую категорию Letter, но во время сегментации рассматривается как объединяющий знак.

В следующих примерах показаны различные кластеры графем:

. в том числе между несочетаемыми компонентами знака гласных и их согласными (см. Выравнивание текста и выравнивание).

Единственным исключением является вышеупомянутый [U+0E33 THAI CHARACTER SARA AM], который разделен на 2 типографские единицы в целях обоснования (см. [[[#inter_character_spacing]]]).

Структурные границы и маркеры

Границы слов

Понятие «слово» трудно определить в любом языке (см. Что такое слово?). Мы будем рассматривать его как неопределенную, но узнаваемую семантическую единицу, которая обычно меньше фразы и может состоять из одного или нескольких слогов.

Пробелы используются в тайском языке в качестве разделителей фраз, но тайский язык не разделяет слова во фразах с помощью видимых пробелов.

Однако в тексте есть понятие слова. Например, строки должны быть разорваны на границах слов.

Границы слов возникают там, где появляются вертикальные линии, хотя они не отмечены сценарием.
Обнаружение границы слова

Основная трудность возникает при работе со сложными словами. Часто бывает трудно решить, представляет ли данная последовательность слогов несколько слов или одно составное слово.

Альтернативные возможности разрыва строки для тайского текста с использованием составных существительных.

Вариация может быть связана с операцией, выполняемой над текстом (например, разрыв строки в узких колонках газетной бумаги, выделение двойным щелчком мыши, перемещение курсора и т. д.), или это может быть связано с личными предпочтениями,

Различие также может зависеть от контекста. Wirote Aroonmanakun описывает, как คน ขับ รถ รถ รถ รถ รถ ขับ รถ นั่ง คอย อยู่ ใน ใน รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ รถ n kʰon kʰap ròt nâŋ kʰɔːj jː nràjt в то время как в фразе คน รถ ผ่าน แยก นี้ ไม่ มาก นัก นัก นัก kʰon kʰap ròt pʰʰn jɛ̀ːk níː mâj màːk nàk не многие люди проезжают через это пересечение, это будет рассматриваться как 3 слова, ссылаясь на любого, кто ездит. а

Имена собственные, состоящие из нескольких слов, также проблематичны, особенно потому, что в них нет заглавных букв, чтобы отличить их от других фрагментов текста.

Пробел нулевой ширины (ZWSP) и Word-joiner (WJ)

Для точной настройки определения границ слов вручную можно использовать невидимый символ U+200B ZERO WIDTH SPACE (ZWSP) для создания разрывов.

Чтобы предотвратить разрыв между слогами, можно использовать U+2060 WORD JOINER (WJ).

Также важно иметь в виду, что тайский может использоваться для написания различных языков, в частности языков меньшинств, для которых необходимы разные словари. Поскольку такие словари могут быть недоступны в данном браузере или другом приложении, существует тенденция использовать ZWSP для компенсации.

Крупномасштабный ручной ввод ZWSP и WJ имеет потенциальные недостатки, поскольку пользователь не может их видеть; это приводит к проблемам с вставкой ZWSP в неправильное положение или несколько раз. Однако они не устанавливают состояние, поэтому не создают серьезных проблем. Однако было бы полезно, если бы редактор показывал расположение этих символов.

Также следует соблюдать осторожность при попытке сопоставить текст, например. для поиска на странице. WJ следует игнорировать. ZWSP может игнорироваться или не игнорироваться в зависимости от того, важны ли для поиска границы слов.

Разбор слогов

Автоматическое добавление пробелов (нулевой ширины или других) вокруг тайских слогов проблематично, поскольку согласные в конце слога нелегко идентифицировать. Тайская сегментация может иметь дело с неоднозначными ситуациями. Возьмем, к примеру, слово № thànǒn tʰà.nǒn дорога

Поскольку звуки в конце слога представляют собой обычные буквы без специального обозначения, их можно разобрать как ta.non, ton.na или даже ta.na.na, и действительно, некоторые слова пишутся одинаково, но произносятся по-разному, напр. นม номер / имя молоко / приветствие

Точно так же, поскольку срединные согласные пишутся с нормальными символами, возможна двусмысленность в отношении того, содержит ли последовательность присущую гласную, например. kà.rīː / krīː слоновая / остроконечная насадка на голову креветки

Ширина пространства

В тайском языке можно найти пробелы двух разных размеров: большие пробелы между предложениями и маленькие пробелы в других местах (например, для разделения подпунктов). Ширина маленького пробела такая же, как [U+0E01 THAI CHARACTER KO KAI], а больший пробел вдвое больше.

Большинство людей больше не делают этого различия, но некоторые могут захотеть. Это также встречается в других сценариях Юго-Восточной Азии.

Пример того, как может выглядеть несколько интервалов ширины.

Наблюдение: в настоящее время неясно, как добиться этого в Интернете, где несколько символов пробела по умолчанию свернуты в один пробел. Одно предложение состоит в том, чтобы использовать [U+2003 EM SPACE], но это плохо поддерживается тайскими шрифтами и не расширяется во время выравнивания. См. GitHub для обсуждения.

 

Аббревиатура, многоточие и повторение

Повторение

ๆ [U+0E46 ТАЙСКИЙ ХАРАКТЕР МАЙЯМОК] используется для обозначения повторения предшествующих букв. Обычно перед ним и после него ставится пробел, например. ทุกวัน ๆ tʰùk.wan tʰùkwan daily Однако некоторые издатели предпочитают публиковать без начального пробела, т.е. Номер

Этот символ не следует переносить в начало новой строки сам по себе, и его следует держать недалеко от предшествующего текста, который он дублирует во время выравнивания.

Аббревиатура

ฯ [U+0E2F THAI CHARACTER PAIYANNOI] используется для обозначения исключения или сокращения букв; Однако он рассматривается как своего рода буква и используется со значительной частотой из -за ее появления в таких словах, как тайское название для Бангкока, กรุงเทพ ฯ ฯ ฯ ฯuŋ̱eṯʰp̱ʰ ⋯ krŋŋ tʰʰp, который короткий для กรุงเทพมหานคร k̯ṟuŋ̱eṯʰp̱ʰm̱hāṉḵʰṟ krŋŋ tʰp mahǎːnit. космос.

Многоточие

Paiyannoi также используется в комбинации ฯลฯ для создания конструкции под названием paiyanyai, что означает «и так далее, и так далее».

Некоторые сокращения пишутся через точку, например. สนง.ตปท. sṉŋ̱.t̯p̯ṯʰ. Управление Королевской полиции Таиланда, сокращение от สำนักงานตำรวจแห่งชาติ saᵐṉäk̯ŋ̱āṉt̯aᵐṟw̱c̯ɛh¹ŋ̱c̱ʰāt0

CLDR указывает, что … [U+2026 ГОРИЗОНТАЛЬНЫЙ ЭЛЛИПСИС] также используется для многоточия.

Макет строки и абзаца

Разрыв строки и перенос

Даже если на тайском языке не указаны границы слов, текст на тайском языке, переносимый в конце строки, должен разрываться на границах слов.

При изменении ширины окна браузера текст в [[[#fig_thai_wrap]]] должен прерываться в показанных точках, если браузер поддерживает тайский перенос:

Точки разрыва, обнаруженные в последовательности тайских символов автоматическим сегментатором слов.

Поскольку тайский язык не разделяет слова, приложения обычно ищут границы слов в словаре, однако такой поиск не всегда дает нужный результат, особенно при работе с составными словами и именами собственными (см. [[[#h_words]] ]). Для получения дополнительной информации см. [[[#h_wordBoundary]]].

Чтобы компенсировать эти недостатки, авторы могут использовать U+200B ZERO WIDTH SPACE и U+2060 WORD JOINER (см. [[[#h_zwsp]]]).

Обратите внимание, что в большинстве браузеров есть эвристики для сегментации текста на тайском языке, но нет гарантии, что эти правила будут одинаково хорошо работать для других языков, использующих тайский алфавит.

Правила линейного ребра

Как и почти во всех системах письма, некоторые знаки препинания не должны стоять в конце или начале строки. Свойства разрыва строки Unicode помогают приложениям решать, должен ли символ появляться в начале или в конце строки.

Показать свойства разрыва строки для символов тайского языка.

В следующем списке приведены примеры типичного поведения символов, используемых в современном тайском языке. Контекст может повлиять на поведение некоторых из этих и других персонажей.

  • » ‘ (   не должен быть последним символом в строке
  • ”’ )? ! ๚ ๛ % не должен начинать новую строку
  • ฿   следует оставить с любым номером, даже если он разделен пробелом или скобкой.

Символ повторения, [U+0E46 ТАЙСКИЙ ХАРАКТЕР МАЙЯМОК] всегда предшествует пробел, однако он не должен переноситься на следующую строку сам по себе.

Выравнивание текста и выравнивание по ширине

Обоснование в тайском языке в первую очередь корректирует пробелы между фразами, а не расширяет текст между словами или слогами. Тот факт, что строки разрываются на границах слов, помогает уменьшить размер пробелов.

Тайский язык также может вносить определенные коррективы в интервалы между символами. Интервал на основе символов чаще всего используется в узких столбцах, таких как газетная бумага, где нет пробела, кроме как в конце строки.

Любой код U+200B ZERO WIDTH SPACE (ZWSP) используется для разделения слов и игнорируется во время выравнивания. Оправдание происходит так, как будто его и не было.

Межсимвольный интервал

Выравнивание в [[[#fig_justification_intercharacter_spacing]]] показывает одинаковый интервал во фразе, в которой нет пробелов для растяжения. Обратите внимание, как равный интервал отделяет компоненты знака гласных до основания и после основания от их согласных на ту же величину, что и согласные отделены друг от друга; они не сохраняются вместе с базовой согласной, которую они модифицируют.

В строке без пробелов применяется межсимвольный интервал для выравнивания текста.

Этот тип интервала требует особого поведения для ำ [U+0E33 THAI CHARACTER SARA AM]. Маленький кружок сохраняется с предыдущим согласным, а пробел добавляется перед разделительной частью гласной, как показано в [[[#fig_am_spacing]]].

Сара AM до (слева) и после (справа) применения межсимвольного интервала.

(Чтобы облегчить это, приложения обычно преобразовывают ำ [U+0E33 ТАЙСКИЙ СИМВОЛ САРА AM] в последовательность ํา [U+0E4D ТАЙСКИЙ СИМВОЛ НИКХАИТ + U+0E32 ТАЙСКИЙ СИМВОЛ САРА AA] перед растяжением. чтобы правильно упорядочить глифы надстрочного индекса, поскольку в памяти знак тона предшествует нихахит. Символ нихахит иначе не используется в современном тайском языке. )

Отступ абзаца

Тайский делает отступ в первой строке абзаца.

Отступы в начале абзаца в тайской газете.

Базовые линии, высота строки и т. д.

Тайский использует так называемую «алфавитную» базовую линию, которая такая же, как для латиницы и многих других шрифтов.

Тайский язык размещает знаки гласных и тонов над основными символами, один над другим, а также может добавлять комбинированные символы под строкой. Сложность этих меток означает, что вертикальное разрешение, необходимое для ясно читаемого тайского текста, выше, чем, скажем, для латинского текста. Кроме того.

Чтобы дать приблизительное представление, [[[#fig_baselines]]] сравнивает латинские и тайские глифы из шрифтов Noto. Базовая высота тайских букв в этом шрифте обычно составляет около латинской высоты x, однако удлинители и комбинированные знаки выходят далеко за пределы латинских надстрочных и подстрочных элементов, что создает необходимость в большем межстрочном интервале. В других шрифтах базовая высота тайских букв, как правило, находится между латинскими x-height и cap-height, поэтому общая высота тайской строки больше. См., например, образец шрифта Angsana New ниже.

Метрики шрифта для латинского текста по сравнению с тайскими глифами в шрифтах Noto Serif Thai (вверху) и Noto Sans Thai (внизу).

[[[#fig_baselines_other]]] показывает аналогичные сравнения для шрифтов FreesiaUPC и Angsana New.

Показатели латинского шрифта по сравнению с тайскими глифами в шрифтах FreesiaUPC (вверху) и Angasana New (внизу).

Тайский язык имеет тенденцию добавлять больше межстрочного интервала , чем латинский текст.

Список счетчиков

Счетчики используются для нумерации списков, заголовков глав и т. д.

В современной тайской орфографии используются цифровые и буквенные стили.

Числовые счетчики

Цифровой стиль использует тайские цифры ‘๐’ ‘๑’ ‘๒’ ‘๓’ ‘๔’ ‘๕’ ‘๖’ ‘๗’ ‘๘’ ‘๙’ в десятичной системе счисления.

Примеры значений для числового стиля счетчика.
Алфавитные счетчики

В алфавитном стиле используются следующие буквы в указанном порядке: ‘ก’ ‘ข’ ‘ค’ ‘ง’ ‘จ’ ‘ฉ’ ‘ช’ ‘ซ’ ‘ฌ’ ‘ญ’ ‘ฎ’ ‘ฏ’ ‘ฐ’ ‘ฑ’ ‘ฒ’ ‘ณ’ ‘ด’ ‘ต’ ‘ถ’ ‘ท’ ‘ธ’ ‘น’ ‘บ’ ‘ป’ ‘ผ’ ‘ฝ’ ‘พ’ ‘ฟ’ ‘ภ »ม’ ‘ย’ ‘ร’ ‘ล’ ‘ว’ ‘ศ’ ‘ษ’ ‘ส’ ‘ห’ ‘ฬ’ ‘อ’ ‘ฮ’.

Примеры значений для алфавитного стиля счетчика.
Пули

๏ [U+0E4F THAI CHARACTER FONGMAN] — тайский маркер, который используется для обозначения элементов в списках или появляется в начале стиха, предложения, абзаца или другого фрагмента текста.

Моделирование инициалов

Можно найти первую букву в абзаце, оформленном так, чтобы он был больше и располагался рядом с несколькими строками продолжающегося текста абзаца.

В выбор включены комбинированные символы.

Два примера абзаца, показывающие пропущенные выделенные инициалы с комбинацией символов.

Первый интервальный гласный в слоге может быть выделен отдельно, без выделения соответствующей основы или любых других гласных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

ได้กลิ่น dây.klìn to smell
ห้องน้ำ hɔ̂ŋ. náːm toilet
โปรแกรม prōː.krɛ̄m (компьютер) Программа
ศักดิ์สิทธิ์ Sàk̚.sìt̚ Священный