Журнал «Филоlogos»
Выпуск №27 (4) (2015)
АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЯЗЫКА ТЕКСТА
В данной статье приводится обзор наиболее популярных способов определения языковой принадлежности текста и их программной реализации, с целью выявления существенных преимуществ и недостатков как лингвистических, так и технических решений в данной области. Несмотря на краткость изложения и поверхностный характер, в данном обзоре наглядно показано современное состояние проблемы определения языка текста и предложены направления ее решения с примерами авторских разработок.
Ключевые слова
программа идентификации языка; распознаватель языка; определение языка текста; языковая принадлежность текста; метод языковой идентификации; language identification program; language identifier; text language detection; language belonging of text; language
AUTOMATIC LANGUAGE DETECTION OF A TEXT
The paper is devoted to the review of text language definition ways and their software implementation. This review is made for the purpose of showing up all the advantages and shortcomings both linguistic and technical solutions in the field. Despite brevity of a statement and superficial character this review demonstrates a current state of the language definition problem and the directions of its solving with examples of authoring (solutions).
Список литературы
-
Автоматический определитель языка текста. URL: "Guesser.ru" http://guesser.ru/ (дата обращения: 11.10.2015).
-
Automatic language identifier (Автоматический определитель языка). URL: http://labs.translated.net/ (дата обращения: 17.10.2015).
-
Автоматический определитель языка текста Полиглот 3000 (П3000). URL: http://www.polyglot3000.com/ (дата обращения: 23.10.2015).
-
Программа TextCat. URL: http://odur.let.rug.nl/~vannoord/TextCat/ (дата обращения: 11.10.2015).
-
Language Identifier by Henrik Falck. URL: http://whatlanguageisthis.com/ (дата обращения: 17.10.2015).
-
Лозовюк А. PHPLangautodetect. URL: http://abrdev.com/?p=346; сайт проекта: http://code.google.com/p/phplangautodetect/ (дата обращения: 27.09.2015).
-
Калегин С.Н. Модуль определения языка текста «МОЯТ». URL: http://mashobrtext.ru/ (дата обращения: 23.10.2015).