Текст:: Ngrams 1,9
Рекламные ссылки
Текст:: Ngrams 1,9: резюме
Размер файла:
0.036 MB
OS:
Any Platform
Тип лицензии:
Perl Artistic License
цена:
скачать:
5170
Дата добавления:
2007-08-22
автор:
Other Publisher
Текст:: Ngrams 1,9: описания
Текст:: Ngrams является гибким анализом Ngram (для символов, слов, и больше).
РЕЗЮМЕ
Для анализа n-грамма символа значения по умолчанию строки:
используйте Текст:: Ngrams;
мой $ng3 = Текст:: Ngrams-> новый;
$ng3-> process_text (abcdefg1235678hijklmnop);
печатайте $ng3-> to_string;
мой @ngramsarray = $ng3-> get_ngrams;
Можно также накормить лексемы вручную:
используйте Текст:: Ngrams;
мой $ng3 = Текст:: Ngrams-> новый;
$ng3-> feed_tokens (a);
$ng3-> feed_tokens (b);
$ng3-> feed_tokens (c);
$ng3-> feed_tokens (d);
$ng3-> feed_tokens (e);
$ng3-> feed_tokens (f);
$ng3-> feed_tokens (g);
$ng3-> feed_tokens (h);
Мы можем выбрать n-граммы различных размеров, например:
мой $ng = Текст:: Ngrams-> новый (windowsize => 6);
или различные типы n-граммов, например:
мой $ng = Текст:: Ngrams-> новый (печатают => байт);
мой $ng = Текст:: Ngrams-> новый (печатают => слово);
мой $ng = Текст:: Ngrams-> новый (печатают => utf8);
Обработать список файлов:
$ng-> process_files (somefile.txt, otherfile.txt);
Этот анализ n-грамма текста орудия модуля, поддерживая несколько типов анализа, включая символ и n-граммы слова.
Текст модуля:: Ngrams очень гибок. Например, это позволяет пользователю вручную кормить последовательность любых лексем. Это обрабатывает несколько типов лексем (символ, слово), и также позволяет большую гибкость в автоматическом распознавании и подаче лексем и способа, которым они объединены в n-грамме. Это считает все частоты n-грамма до максимальной указанной длины. Выходной формат предназначается, чтобы быть в значительной степени удобочитаемым, в то время как также загружаемый модулем.
Модуль может использоваться от командной строки до сценария ngrams.pl предоставленный пакет.
Ограничения:
· Если пользователь настраивает тип, возможно, что получающийся n-грамм будет неоднозначен. Таким образом, к различным n-граммам может быть посчитан как один. С предопределенными типами n-граммов это не должно случиться. Например, если пользователь выбирает это, лексема может содержать место, и использует место как разделитель n-грамма, то trigram как это "x x x x" неоднозначен.
· Метод process_file не обрабатывает многострочные лексемы по умолчанию. Это может быть установлено, но это, кажется, не стоит осложнение кода. Есть различные пути вокруг этого, если Вы действительно нуждаетесь в таких лексемах: Один путь состоит в том, чтобы предварительно обработать их. Иначе должен читать так много текста по мере необходимости за один раз затем, чтобы использовать process_text, который действительно обрабатывает многострочные лексемы.
РЕЗЮМЕ
Для анализа n-грамма символа значения по умолчанию строки:
используйте Текст:: Ngrams;
мой $ng3 = Текст:: Ngrams-> новый;
$ng3-> process_text (abcdefg1235678hijklmnop);
печатайте $ng3-> to_string;
мой @ngramsarray = $ng3-> get_ngrams;
Можно также накормить лексемы вручную:
используйте Текст:: Ngrams;
мой $ng3 = Текст:: Ngrams-> новый;
$ng3-> feed_tokens (a);
$ng3-> feed_tokens (b);
$ng3-> feed_tokens (c);
$ng3-> feed_tokens (d);
$ng3-> feed_tokens (e);
$ng3-> feed_tokens (f);
$ng3-> feed_tokens (g);
$ng3-> feed_tokens (h);
Мы можем выбрать n-граммы различных размеров, например:
мой $ng = Текст:: Ngrams-> новый (windowsize => 6);
или различные типы n-граммов, например:
мой $ng = Текст:: Ngrams-> новый (печатают => байт);
мой $ng = Текст:: Ngrams-> новый (печатают => слово);
мой $ng = Текст:: Ngrams-> новый (печатают => utf8);
Обработать список файлов:
$ng-> process_files (somefile.txt, otherfile.txt);
Этот анализ n-грамма текста орудия модуля, поддерживая несколько типов анализа, включая символ и n-граммы слова.
Текст модуля:: Ngrams очень гибок. Например, это позволяет пользователю вручную кормить последовательность любых лексем. Это обрабатывает несколько типов лексем (символ, слово), и также позволяет большую гибкость в автоматическом распознавании и подаче лексем и способа, которым они объединены в n-грамме. Это считает все частоты n-грамма до максимальной указанной длины. Выходной формат предназначается, чтобы быть в значительной степени удобочитаемым, в то время как также загружаемый модулем.
Модуль может использоваться от командной строки до сценария ngrams.pl предоставленный пакет.
Ограничения:
· Если пользователь настраивает тип, возможно, что получающийся n-грамм будет неоднозначен. Таким образом, к различным n-граммам может быть посчитан как один. С предопределенными типами n-граммов это не должно случиться. Например, если пользователь выбирает это, лексема может содержать место, и использует место как разделитель n-грамма, то trigram как это "x x x x" неоднозначен.
· Метод process_file не обрабатывает многострочные лексемы по умолчанию. Это может быть установлено, но это, кажется, не стоит осложнение кода. Есть различные пути вокруг этого, если Вы действительно нуждаетесь в таких лексемах: Один путь состоит в том, чтобы предварительно обработать их. Иначе должен читать так много текста по мере необходимости за один раз затем, чтобы использовать process_text, который действительно обрабатывает многострочные лексемы.
Текст:: Ngrams 1,9: скриншот
Рекламные ссылки
Текст:: Ngrams 1,9: ключевое слово
Текст:: Ngrams 1,9: Закладка
Похожие программы на Текст:: Ngrams 1,9
мое программное обеспечение
Вы не сохраняются какие-либо программного обеспечения. Нажмите кнопку "Сохранить" рядом друг с программным обеспечением, чтобы сохранить его на свой программного корзину
поисковых
Рекламные ссылки
