Путевки в Египет
Горящие туры в Египет

Классификация текстов и рекомендации для дальнейшего чтения

Общее введение в статистическую классификацию и машинное обучение, включая многие важные методы (например, деревья решений и бустинг, которые мы не упоминали), изложены в работах Хасти и др. (Hastie et al., 2001), Митчела (Mitchell, 1997) и Дуда и др. (Duda et al., 2000). Всесторонний обзор методов классификации текстов и результатов, полученных в этой области, приведен в работе Себастиани (Sebastiani, 2002). Доступное введение в классификацию текстов, включая деревья решений, персептроны и модели максимальной энтропии, содержится в работе Маннинга и Шютце (Manning and Schutze, 1999). Более подробную информацию о суперлинейной временной сложности методов обучения, более точных, чем наивный байесовский метод, можно найти в работах Пер­кинса и др. (Perkins et al., 2003), а также Йоахимса (Joachins, 2006а).

Один из первых наивных байесовских классификаторов текста описали Марон и Кунс (Maron and Kuhns, 1960). Льюис (Lewis, 1998) сосредоточил внимание на истории этого метода. Бернуллиевские и мультиномиальные модели, а также их точность для разных коллекций рассмотрены в работе Маккалума и Нигэма (McCallum and Nigam, 1998). Эйхераменди и др. (Eyheramendy et al., 2003) предложили новые наивные байесовские модели. Домингос и Паццани (Domingos and Pazzani, 1997), Фридман (Friedman, 1997), а также Хэнд и Ю (Hand and Yu, 2001) проанализировали, почему наивный байесовский метод работает достаточно хорошо, хотя его оценки вероятностей неточны. В первой из этих работ обсуждается также оптимальность наивного байесовского метода в ситуации.

Когда относительно данных выполняется гипотеза о независимости. Павлов и др. (Pavlov et al., 2004) предложили модифицированное представление документов, которое частич­но решает проблему некорректного предположения о независимости. Беннет (Bennet, 2000) предположил, что близость наивных байесовских оценок вероятностей к нулю или единице объясняется длиной документов. Нг и Джордан (Ng and Jordan, 2001) показали, что наивный байесовский метод иногда (довольно редко) превосходит дискриминантные методы, поскольку он быстро достигает оптимального уровня ошибок. Эффективность основной наивной байесовской модели, описанной в этой главе, можно повысить (Rennie et al., 2003; Kolcz and Yih, 2007). Проблема дрейфа понятий и другие причины, по кото­рым современные классификаторы не всегда хороши на практике, описаны в работах Формана (Forman, 2006) и Хэнда (Hand, 2006).

Впервые взаимная информация и статистика %2 для выбора признаков в классифика­ции текстов была применена Льюисом и Рингеттом (Lewis and Ringuette, 1994), а также Шютце и др. (Schutzc et al., 1995) соответственно. Янг и Педерсен (Yang and Pedersen, 1997) сделали обзор методов выбора признаков и оценки их влияния на эффективность классификации. Они выяснили, что поточечная взаимная информация (pointwise mutual information) не может конкурировать с другими методами. Янг и Педерсен называли ожидаемую взаимную информацию (см. формулу (13.16)) приростом информации (см. упражнение 13.13). Хорошим источником сведений о статистике %2, а также о поправке Йейтса на непрерывность для таблиц 2х 2 является книга Снедекора и Кохрана (Snedecor and Cochran, 1989). Даннинг (Dunning, 1993) обсудил проблемы применения критерия хи-квадрат, когда частоты малы. Нежадные методы выбора признаков описаны в работе Хасти и др. (Hastie et al., 2001). Коэн (Cohen, 1995) указал на ловушки, связанные с ис­пользованием нескольких критериев значимости, и описал, как их избежать. Формен (For­man, 2004) оценил несколько методов выбора признаков для нескольких классификаторов.

Дэвид Льюис (David D. Lewis) описал коллекцию ModApte по адресу www. daviddlewis. com/resources/testcollections/reuters21578/readme. txt, основываясь на работе Апте и др. (Apte et al., 1994). Льюис (Lewis, 1995) описал пока­затели полезности для оценки систем классификации текстов. Янг и Лиу (Uang and Liu, 1999) применили критерии значимости для оценки методов классификации текстов.

Льюис и др. (Lewis et al., 2004) выяснили, что метод опорных векторов (глава 15) на коллекции Reuters-RCVl работает лучше, чем алгоритмы kNN и Роккио (глава 14).

Контекстная реклама — один из эффективных инструментов раскрутки сайтов. Спонсор статьи поможет вам рационально организовать рекламную компанию с использованием преимуществ Интернет-рекламы.

Комментарии закрыты.

Хостинг для Wordpress сайтов

  • Реклама