Перейти к содержанию

Файл:Topic detection in online chat (IA topicdetectionin109454513).pdf

Содержимое страницы недоступно на других языках.
Материал из Wikivoyage
Перейти на страницу
следующая страница →
следующая страница →
следующая страница →

Исходный файл (1275 × 1650 пкс. Размер файла: 624 КБ, MIME-тип: application/pdf. 104 страницы)

Этот файл из на Викискладе и может использоваться в других проектах. Информация с его страницы описания приведена ниже.

Краткое описание

Topic detection in online chat   (Wikidata search (Cirrus search) Wikidata query (SPARQL)  Create new Wikidata item based on this file)
Автор
Durham, Jonathan S.
image of artwork listed in title parameter on this page
Название
Topic detection in online chat
Издательство
Monterey, California. Naval Postgraduate School
Описание

The ubiquity of Internet chat applications has benefited many different segments of society. It also creates opportunities for criminal enterprise, terrorism, and espionage. This thesis proposes statistical Natural Language Processing (NLP) methods for creating systems that would detect the topic of chat in support of larger NLP goals such as information retrieval, text classification and illicit activity detection. We propose a novel method for determining the topic of chat discourse. We trained Latent Dirichlet Allocation (LDA) models on source documents and then used inferred topic distributions as feature vectors for a Support Vector Machine (SVM) classification system. We constructed LDA models in three ways: We considered the collective posts of authors as documents, hypothesizing that we could detect the topic physics given only one side of the conversation. The resultant classifiers obtained F-scores of 0.906. Next, we considered individual posts as documents, hypothesizing we could detect physics posts. The resultant classifiers obtained F-scores of 0.481. Finally, we considered physics textbook paragraphs as documents, hypothesizing that we could determine the topic of an author or a post based on an LDA model created from a textbook and a sample of noisy chat. The resultant classifiers obtained F-scores of 0.848 and 0.536 respectively.


Subjects: Internet
Язык английский
Дата публикации сентябрь 2009
Текущее местонахождение
IA Collections: navalpostgraduateschoollibrary; fedlink
Инвентарный номер
topicdetectionin109454513
Источник
Internet Archive identifier: topicdetectionin109454513
https://archive.org/download/topicdetectionin109454513/topicdetectionin109454513.pdf

Лицензирование

Public domain
Это произведение находится в общественном достоянии (англ. public domain) в Соединённых Штатах Америки, так как оно является работой, выполненной должностным лицом или наёмным сотрудником Федерального правительства США в качестве части служебных обязанностей этого лица. Правовой статус регламентируется в соответствии с разделом 17, главой 1, секцией 105 Кодекса Соединённых Штатов. См. Авторское право. Обратите внимание: это относится только к оригинальным (первоначальным) произведениям Федерального правительства, а не к произведениям любого отдельного штата США, территории, содружества, округа, муниципалитета или любой другой территориальной единицы. Этот шаблон также не относится к дизайну почтовых марок, изданных Почтовой службой США с 1978 года. (См. § 313.6(C)(1) в Compendium of U.S. Copyright Office Practices). Это также не относится к определённым монетам США; см. Условия использования Монетного двора США.
Этот файл был определён как свободный от известных ограничений авторского права, а также связанных и смежных прав.

Краткие подписи

Добавьте однострочное описание того, что собой представляет этот файл

Элементы, изображённые на этом файле

изображённый объект

application/pdf

История файла

Нажмите на дату/время, чтобы увидеть версию файла от того времени.

Дата/времяМиниатюраРазмерыУчастникПримечание
текущий16:02, 25 июля 2020Миниатюра для версии от 16:02, 25 июля 20201275 × 1650, 104 страницы (624 КБ)FEDLINK - United States Federal Collection topicdetectionin109454513 (User talk:Fæ/IA books#Fork8) (batch 1993-2020 #30745)

Нет страниц, использующих этот файл.

Метаданные