Lexema-RPA_Studio_Docs/docs/TextAnalysis.md

14 lines
3.7 KiB
Markdown
Raw Normal View History

2020-05-21 12:46:42 +00:00
# <H1 align="center">Модуль «Обработка текста»</h1>
<p> Модуль «Обработка текста» предлагает несколько методов сравнения текста. В некоторых задачах требуется знание о том, как сильно различен текст между эталонным и указанным. Это задачи, относящиеся к компьютерной лингвистике и искусственному интеллекту.</p>
## Интерфейс модуля
<p> Окно модуля состоит из части составления команды, кнопок управления командами и списком команд в виде таблицы. Часть составления команды состоит из следующих полей: выпадающий список «Действие» с доступным набором методов анализа текста, два поля «Строка 1» и «Строка 2», предназначенные для ввода двух строк текста или переменных, содержащих текст, и поле «Переменная результат» - для названия переменной, в которую будет помещен результат работы модуля.
<H1 align="center">![Screenshot](img/TA_1.png)</h1>
<p> По кнопке «Добавить» созданная команда поместится в таблицу «Список команд». Для редактирования команды из списка нужно выбрать её в таблице, изменить необходимые поля и нажать на кнопку «Редактировать». Для удаления команды нужно выбрать ее в списке и нажать на кнопку «Удалить». С помощью стрелочек в углу таблицы можно менять команды местами, аналогично тому, как это происходит в модуле Excel (Часть II).
<p> Методы анализа текста
<p> В модуле предложены следующие методы анализа текста:
<p> 1. Расстрояние Левенштейна рассчитывает разницу между двумя строками. Например «Lexema RPA» и «Lexema SR» отличаются на 3 символа слова «Lexema» совпадают полностью, остальные символы различны, то есть результат, записанный в переменную, будет равен 3;
<p> 2. 3-граммы метод, основанный на работе с n-граммами, в нашем случае n=3 оценивается схожесть каждых 3 символов. Чем больше число (до 1), тем большую схожесть имеют строки. В примере «Lexema RPA» и «Lexema SR» результатом будет число 0,52.
<p> 3. Сходство Джаро-Винклера мера схожести строк для измерения расстояния между двумя последовательностями символов. Чем меньше расстояние Джаро-Винклера для двух строк, тем больше сходства имеют эти строки друг с другом. Для примера «Lexema RPA» и «Lexema SR» результатом будет число 0,5.