На главную страницу



Правила форума Часто задаваемые вопросы

Друзья, перед тем, как задать свой вопрос в этом форуме, загляните в ЧаВо -- возможно, именно там вы и найдете ответ.

Страницы: (2) [1] 2 все  ( Перейти к первому непрочитанному сообщению ) Ответ в темуСоздание новой темыСоздание опроса

> Идея   [ словарный запас участников ]
Пользователя сейчас нет на форуме Крысолов
Дата 10.12.2008 - 01:48
Цитировать сообщение


हावा नागील

Группа: Администраторы
Сообщений: 6019
Профиль

Отзывы: Гроссмейстер обсуждений
[+328 | -6 | 2364]


Есть интересная, на мой взгляд, мысль, для реализации которой придется, к сожалению, слегка напрячь админов и, возможно, кого-нибудь, кто в состоянии связать пару слов на пхп.

Хочется проанализировать словарный запас участников, многие из которых наполняют форум уже годы. Для этого надо сделать довольно простую структурно вещь: получить мускулом все сообщения каждого пользователя и распарсить полученную структуру по пробелам. После чего отрезать от каждого слова глагольные и падежные (про наречия тоже не забыть) окончания (можно даже вторым проходом суффикы причастий и деепричастий), и посчитать число вхождений. Считаю, что в полсотни строк можно уложиться, если нет уже готовой библиотеки.

Для полной красоты можно объединить все местоимения по лицам, чтобы "я, мне, меня" и так далее, например, считалось, как одно.

Выход можно оформить для каждого ника таким образом: ник, число слов, число уникальных, первые полсотни наиболее употребительных в промиллях. Отдельно топ 50 ников по наибольшему словарю. Ясно, что для новичков и малограмотных этот механизм даст ошибку, но что делать...


--------------------
Все, мной сказанное, выражает исключительно мою персональную точку зрения, если прямо не указано иного.
Я не отвечаю на вопросы и реплики, оставленные в отзывах.
Мешаю "Ты" и "Вы", извините.
Отправить личное сообщениеСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме Nu nu
Дата 10.12.2008 - 05:28
Цитировать сообщение


Активный долгожитель

Группа: Заблокированные
Сообщений: 1041
Профиль

Отзывы: Мастер конфигурации
[+77 | -3 | 480]


Согласен. Мысль интересная, но не новая. Уже существуют программы анализа частоты и диапазона употребляемых слов, а по соотношению кривых распределения слов из предыдущих выступлений определяются истинные намерения автора. Да ты, наверно, и сам слышал, когда сразу после синхронного перевода обращения какого то высокопоставленного лица или дипломата журналисты комментируют: Докладчик 18 раз употребил словосочетание “нас рать”.
Однако подобные программы не пользуются популярностью при анализе вертикальных срезов в социальных пирамидах. Результаты впечатляют. Они ставят пирамиду с ног на голову, и пирамида рассыпается как карточный домик. Похожие результаты дает анализ IQ или темпов продвижения по служебной лестнице.
В социальной пирамиде больше всего цениться преданность идеалам верхушки, а не какие-то там вымышленные общечеловеческие ценности.


--------------------
Мануальный психотерапевт...
Отправить личное сообщениеЖурнал пользователя
Top
Пользователя сейчас нет на форуме Крысолов
Дата 10.12.2008 - 05:47
Цитировать сообщение


हावा नागील

Группа: Администраторы
Сообщений: 6019
Профиль

Отзывы: Гроссмейстер обсуждений
[+328 | -6 | 2364]


Да я в курсе, только психолингвистический анализ текста нам не нужен, тем более, что многое в этих программах (по крайней мере, доступных в интернете) выводится от балды, а то и на основе эзотерических бредней. А вот посмотреть статистику размеров словарей по форуму - интересно.


--------------------
Все, мной сказанное, выражает исключительно мою персональную точку зрения, если прямо не указано иного.
Я не отвечаю на вопросы и реплики, оставленные в отзывах.
Мешаю "Ты" и "Вы", извините.
Отправить личное сообщениеСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме BOBA
Дата 10.12.2008 - 10:17
Цитировать сообщение


Консультант-Волонтер

Группа: Консультанты
Сообщений: 5390
Профиль

Отзывы: Гроссмейстер обсуждений
[+290 | -0 | 1516]


Есть вариант проще (а может и не проще...). Ввести паралельную систему оценок по категориям. Как в фигурном катании - за артистизм, за технику.... Потому что качество речи-не всегда=словарному запасу, хотя коррелирует сильно...
Ну... если дозрею до идеи подучить пыхп и мускул - может и напишу как лабораторку... почему б и нет... Так и тут - оценивать можно лексику, яркость изложения, синтонность - по 10 бальной шкале...
И напишу кстати Дронни - он уже готовый пхп-ист icon_lol.gif icon_lol.gif


--------------------
....... просто живу ........
Отправить личное сообщениеОтправить сообщение на e-mailСайт пользователяЖурнал пользователя
Top
Пользователя сейчас нет на форуме Матмастер
Дата 10.12.2008 - 11:58
Цитировать сообщение


Долгожитель

Группа: Кураторы
Сообщений: 545
Профиль

Отзывы: Интересный собеседник
[+6 | -0 | 517]


Крысолов

Идея интересная, вопрос кто будет этим заниматься и дадут ли на это добро. Но я бы весмьа хотел посмотреть: любой рейтинг, даже неправильный - это, как минимум, интересно.

По поводу интерпретации результатов: настоящий мудрец, который, как известно, никогда не сядет себе на яйца, имеет свойство говорить так, чтобы словам было - тесно, а мыслям - просторно. А блондинка с феноменальной памятью будет украшать свою речь полусотней фразеологических оборотов на каждом предложении, но от этого её повествование не перестанет быть пшиком. Так что вполне может оказаться и обратное: чем меньше слов в обороте, тем выше IQ icon_lol.gif
Отправить личное сообщениеЖурнал пользователя
Top
Пользователя сейчас нет на форуме Dronni3d
Дата 10.12.2008 - 13:33
Цитировать сообщение


Рыже-бесстыжая Белка)

Группа: Пользователи
Сообщений: 210
Профиль

Отзывы: [+0 | -0 | 47]


Привет, ребята) А вот и Дронни.
Ну не то чтобы волшебник (привет, Воваicon_wink.gif) РНР-ист, но учусь-с.
Крысолов , такая вещь называеться "лексический анализатор"(у нас была в университет дисциплина такая), но написать ее не совсем так просто как Вам кажеться.
Во первых, я так понимаю, Вы предлагаете написать отедльный модуль компонент в форуму и использовать базы данных форума - кто даст добро, и не нанесет ли вред это базам форума? С IPB не работал, поэтому результат не гарантирую и вряд ли возьмус. Если не из форума, то придеться распарсить странички - писать граббер, который автоматом будет извлекать нужный текст со всех страничек (или из диапазона). Тут подключать регулярные выражения (синтаксис которых не очень прост), строковые фукнкции, чтобы извлекать нужные цитаты и слова. ВОВА, граббер писать не так и просто, сложный синтаксис регулярных выражений.
Писать отдельно, можно, почему бы и нет. Можно сделать отдельным скриптом, в текстовое поле вручную вводить цитаты-слова, строковыми функциями будет подсчитываться количество введенных слов, заноситься в базу и считать словарный запас - это реальнее.
В простейшем виде задачу вижу так - отдельным скриптом, есть список слов которые мы подсчитываем- мы их задаем. И дальше начинаем копи-паст из страниц форума, и считаеться количество совпадений слов, то есть и словарный запас.


--------------------
Счастье и успех - это целенаправленная пахота на результат.
Отправить личное сообщениеОтправить сообщение на e-mailСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме BOBA
Дата 10.12.2008 - 14:09
Цитировать сообщение


Консультант-Волонтер

Группа: Консультанты
Сообщений: 5390
Профиль

Отзывы: Гроссмейстер обсуждений
[+290 | -0 | 1516]


Цитата
Во первых, я так понимаю, Вы предлагаете написать отедльный модуль компонент в форуму и использовать базы данных форума - кто даст добро, и не нанесет ли вред это базам форума?

- запрос вреда не нанесет. какой вред от Select-'а
- граббер - это ненужная по моему трата времени, все равно парсить строчки - из базы их получать проще...
- заранее формировать список слов - это не то, что интересно Крысолову - как раз интересно составить лексикон...


--------------------
....... просто живу ........
Отправить личное сообщениеОтправить сообщение на e-mailСайт пользователяЖурнал пользователя
Top
Пользователя сейчас нет на форуме Крысолов
Дата 10.12.2008 - 16:30
Цитировать сообщение


हावा नागील

Группа: Администраторы
Сообщений: 6019
Профиль

Отзывы: Гроссмейстер обсуждений
[+328 | -6 | 2364]


Именно.

Вручную ничего вводить не надо, мы выбираем все сообщения данного пользователя, и работаем с результатом как с одним большим куском.

От создания отдельной таблицы и Insert'а вреда тоже быть не должно. В этом случае действительно, оно будет работать как компонент - можно посмотреть данные по отдельному пользователю или сводную таблицу по топу благо выбрать и отсортировать в мускуле совсем просто. Другое дело, что не надо дергать его по каждому вызову - будет сильно грузить сервер. Попросту обновлять таблицу раз в сутки - самое частое.

Синтаксис регулярных выражений не тайна за семью печатями, поскольку нам надо всего лишь парсить по пробелам и знакам препинания, и удалять у результатов хвосты, их легко перечислить в массиве, который по preg_replace заменяется на "". Причем его надо делать не на том этапе, когда мы имеем массив слов, а еще на том, когда мы имеем длинный текст.

Естественно, не стоит писать его прямо на живом сайте, вс эксперименты следует делать на собаках - поставить форум на каком н-ть хостинге, а то и у себя на апаче, и на ем, родимом... А готовый результат можно, опять же сначала, оттестить на добровольцах, то есть опубликовать и подождать отзывов, не поехало ли у кого что.

Итого:

Select
implode
preg_replace
explode через пробел
немножко арифметики
Insert

Ну и несложное предъявление.


--------------------
Все, мной сказанное, выражает исключительно мою персональную точку зрения, если прямо не указано иного.
Я не отвечаю на вопросы и реплики, оставленные в отзывах.
Мешаю "Ты" и "Вы", извините.
Отправить личное сообщениеСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме Nu nu
Дата 10.12.2008 - 19:16
Цитировать сообщение


Активный долгожитель

Группа: Заблокированные
Сообщений: 1041
Профиль

Отзывы: Мастер конфигурации
[+77 | -3 | 480]


10.12.2008 - 11:58
Цитата
Идея интересная, вопрос кто будет этим заниматься и дадут ли на это добро.

Интересно, да кто ж отдаст свое добро на зарплату тем, кто будет этим заниматься?




--------------------
Мануальный психотерапевт...
Отправить личное сообщениеЖурнал пользователя
Top
Пользователя сейчас нет на форуме Крысолов
Дата 10.12.2008 - 19:34
Цитировать сообщение


हावा नागील

Группа: Администраторы
Сообщений: 6019
Профиль

Отзывы: Гроссмейстер обсуждений
[+328 | -6 | 2364]


Брось, грамотный человек это напишет за пару часов в порядке любопытства.


--------------------
Все, мной сказанное, выражает исключительно мою персональную точку зрения, если прямо не указано иного.
Я не отвечаю на вопросы и реплики, оставленные в отзывах.
Мешаю "Ты" и "Вы", извините.
Отправить личное сообщениеСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме Антон АА
Дата 10.12.2008 - 22:44
Цитировать сообщение


Активный долгожитель

Группа: Старшие модераторы
Сообщений: 1956
Профиль

Отзывы: Лидер обсуждения
[+46 | -0 | 1034]


Всё-таки, парсинг - штука сложная, по опыту знаю.
Кстати, не забудьте ещё, что для чистоты эксперимента нужно вырезать текст в тегах QUOTE. А то мало того, что чужие тексты оценивать начнём, так ещё и участники форума между собой мешаться будут.


--------------------
Мира и согласия всем!
Отправить личное сообщениеОтправить сообщение на e-mailЖурнал пользователя
Top
Пользователя сейчас нет на форуме Крысолов
Дата 11.12.2008 - 00:29
Цитировать сообщение


हावा नागील

Группа: Администраторы
Сообщений: 6019
Профиль

Отзывы: Гроссмейстер обсуждений
[+328 | -6 | 2364]


Ой, да, цитирование оно, конечно...
А парсинг здесь не нужен.
Отрезать все окончания - одна команда. Правда, довольно длинный массив для аргумента preg_replace. Отрезать суффиксы - вторая. Разобрать текст на массив по одному слову - третья. А сортировка и подсчет - предмет студенческой лабораторки.

Ну, не знаю, как еще объяснить... Например, албанизатор - если не упоминать обработку линков, то само перелопачивание текста состоит из четырех команд, три из которых занимаются рандомной заменой знаков препинания - для точки, запятой и вопросительного с восклицательным. Весь остальной текст - одна preg_replace с массивом замены на полстраницы.

Сообщение отредактировал(а) Крысолов - 11.12.2008 - 00:34


--------------------
Все, мной сказанное, выражает исключительно мою персональную точку зрения, если прямо не указано иного.
Я не отвечаю на вопросы и реплики, оставленные в отзывах.
Мешаю "Ты" и "Вы", извините.
Отправить личное сообщениеСайт пользователяОтправить сообщение на ICQЖурнал пользователя
Top
Пользователя сейчас нет на форуме Антон АА
Дата 11.12.2008 - 07:53
Цитировать сообщение


Активный долгожитель

Группа: Старшие модераторы
Сообщений: 1956
Профиль

Отзывы: Лидер обсуждения
[+46 | -0 | 1034]


Цитата (Крысолов @ 11.12.2008 - 01:29)
Отрезать все окончания - одна команда. <...>
Отрезать суффиксы - вторая.
Но как определить, где окончания, где суффиксы и сколько их? Суффиксов ведь до 3-х штук в одном слове бывает, по-моему... А ведь ещё есть чередование гласных и согласных в корне и т.д.... С этим делом даже живые люди путаются очень часто.


--------------------
Мира и согласия всем!
Отправить личное сообщениеОтправить сообщение на e-mailЖурнал пользователя
Top
Пользователя сейчас нет на форуме BOBA
Дата 11.12.2008 - 11:17
Цитировать сообщение


Консультант-Волонтер

Группа: Консультанты
Сообщений: 5390
Профиль

Отзывы: Гроссмейстер обсуждений
[+290 | -0 | 1516]


Крысолов, вопрос вот какой...
А чего ты этим хочешь поиметь? Какая цель? А какая над-цель? Какие вар-ты использования?
И можно ли добиваться над-цели как то по другому ))) - вопросы начинающего консалтера...


--------------------
....... просто живу ........
Отправить личное сообщениеОтправить сообщение на e-mailСайт пользователяЖурнал пользователя
Top
Пользователя сейчас нет на форуме Старуха Шапокляк
Дата 11.12.2008 - 12:01
Цитировать сообщение


Любопытный слоненок

Группа: Гроссмейстеры
Сообщений: 1157
Профиль

Отзывы: Гроссмейстер обсуждений
[+131 | -1 | 346]


А вот, говорят, исследовали тексты Щербакова (Михаила) на предмет - какие глаголы он наиболее часто употребляет. Оказалось "мыть" и "какать" icon_biggrin.gif Как вы думаете, почему так получилось? icon_insane.gif


--------------------
Если хотите нормально работать - прямо сейчас нажмите крестик в правом верхнем углу. ((с)перто у Белкуса)
Отправить личное сообщениеОтправить сообщение на e-mailЖурнал пользователя
Top
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Опции темы Страницы: (2) [1] 2 все Ответ в темуСоздание новой темыСоздание опроса