?

Log in

No account? Create an account

Word frequencies

« previous entry | next entry »
апр. 16, 2008 | 02:00 pm

Reading a foreign text and having to look up lots of words on every page is pretty exhausting. And if there are really a lot, I tend to forget the words rather quickly.
My strategies to avoid endless flipping the dictionary pages were so far: 

1: choose a scientific book, as the author will try to explain his point as clearly as possible, giving multiple examples an using a rather formal language
2: select a topic that you are rather familiar with, so you can at times make an educated guess about the meaning of an unknown word.  

But even under these conditions the advances are pretty slow. OK, I didn't choose a really easy text, but of course it has to draw my attention as well.

Enter the Jargonizer. It is a C# program I finished today, and which basically does a histogram analysis on the text. It returns a file with two columns: the word and the number of times that it occurs. I manually removed the words I know  and this gave me a list of the 200 most frequent unknown (to me) words in the text. This should speed up the reading.

Some actual data:

Book: Русская Сказка by В.Я. Пропп

Top 10 words:

4527 и
3803 в
1711 не
1133 на
1127 с
1114 сказки
1102 о
917 что
897 к
819 а

Top 10 unknown words:

119 изучения
113 совершенно
100 ред
75 значение
74 изучение
66 является
63 указатель
57 случаях
57 рке
56 происхождение

Ссылка | Оставить комментарий |

Comments {5}

risboo6909

(без темы)

from: risboo6909
date: апр. 20, 2008 12:30 am (UTC)
Ссылка

Интересненькое исследование. Вопросы у меня вызывют некоторые слова из списка top 10 unknown.

слово РКЕ - ? такого слова я в русском языке не знаю
слово РЕД - ? что это за слово такое?

Также хочется уточнить, что 'в', 'к', 'o', 'и', 'на' и т.д. являются скорее предлогами нежели словами и конечно встречаются довольно часто как и в большинстве других языков (к примеру в английском 'in', 'at', 'on', 'to', и т.д.).

А еще порекомендовал бы вам взять роман Л. В. Толстого "Война и Мир" (в 3-х томах) и попытаться провести анализ этого произведения при помощи вашей программы, думаю результат будет интересным.

Ответить | Ветвь дискуссии

risboo6909

(без темы)

from: risboo6909
date: апр. 20, 2008 12:32 am (UTC)
Ссылка

*опечатка в предыдущем посте: Л. Н. Толстого

Ответить | Уровень выше | Ветвь дискуссии

pphi

(без темы)

from: pphi
date: апр. 20, 2008 07:00 am (UTC)
Ссылка

ред is an abbreviation of редакция (spelling?)
рке is in my opinion an artefact of the OCR software used to produce the document. The printed original has уже in all these locations :-)

In the mean time I gathered a list of words sorted by frequency from http://www.comp.leeds.ac.uk/ssharoff/frqlist/frqlist-en.html

This should be helpful in filtering out the most common words. As this list also shows you the type of each word, filtering out most of the inflected forms should be possible with not too many false negatives.

Finally, I discovered that the program Freelang (http://www.freelang.net) uses a word list format that is pretty easy to decode: record length=184, translation starts at position 31. So producing a reasonably complete word list for an etext appears to be feasible.

When the program is improved to that level, I shall certainly run some Russian Classics through it, and report on the results.

Ответить | Уровень выше | Ветвь дискуссии

alexgym

(без темы)

from: alexgym
date: окт. 6, 2008 06:37 pm (UTC)
Ссылка

Привет, Пим!
Я рад, что Вы с вашим ансамблем успешно провели гастроли в России.
Меня заинтересовали ваши исследования по увеличению эффективности изучения иностранного языка, и я перевёл Ваш текст на русский. Если Вам интересно, то я могу объяснить, почему я применил те или иные выражения при переводе.

Частота слов
Чтение иностранного текста с необходимостью многократного просмотра [ поиска незнакомых ] слов на каждой странице очень утомительно. И если слов действительно много, то я их быстро забываю.
Мои стратегии избежать бесконечного перелистывания страниц словаря были такими:

1: выбрать научную книгу, где автор будет пробовать объяснить свою ( = его = ) точку зрения настолько ясно, насколько это возможно, приводя ( = давая = ) многократные примеры с использованием довольно формального языка
2: выбрать тему, с которой Вы знакомы настолько, что сможете время от времени делать обоснованные предположения о значении неизвестных ( = незнакомых = ) Вам слов.

Но даже при всех этих условиях продвижение достаточно ( = очень = ) медленно. Итак, я выбрал действительно нелёгкий текст, именно поэтому он и привлёк мое внимание.

Войдите ( введите данные ) в "Jargonizer". Это - программа на С#, которую я закончил сегодня, в основном рисующую гистограммы анализирующие текст. Она ( = программа = ) возвращает файл с двумя колонками: слова и число их появлений в тексте. Я вручную удалил слова, которые я знаю, и получил список из 200 ( = двухсот = ) наиболее часто встречающихся неизвестных мне слов в тексте. Это должно мне облегчить ( = ускорить = ) чтение.

Моя программа, подобная Вашей, для английского текста не считает частоту появления слов, но удаляет слова из одной и из двух букв, а также знакомые мне слова. На выходе я получаю файл со списком незнакомых слов с переводом. По их количеству я могу оценить сложность текста. Из исходных данных у меня есть отсортированный список знакомых мне слов и, соответственно, отсортированный достаточно полный англо-русский словарь в текстовом DOS-формате. Если хотите, я могу переслать Вам русско-английский и англо-русский словари на 58000 слов объёмом по 1,5 мегабайта каждый. Конечно, я понимаю, что для перевода русского текста программа будет сложнее, чем для английского !

Александр_гимнаст...

Ответить | Ветвь дискуссии

alexgym

(без темы)

from: alexgym
date: окт. 6, 2008 07:38 pm (UTC)
Ссылка

А теперь - отредактированный мной машинный перевод вышеизложенного русского текста:
And now - the machine translation of the above-stated Russian text edited by me.

Hello, Pim!
I am glad, that you with your ensemble have successfully lead performances in Russia.
I was interested with your researches on increase efficiency of studying foreign language. I have translated your text to Russian. If it is interesting to you, I can explain, why I have applied those or other expressions while translating.

Frequency of words
Reading of the foreign text with necessity of repeated viewing [search unfamiliar] words on each page is very tiresome. And if really it is a lot of words, I quickly forget them.
My strategy to avoid infinite browsing of pages of the dictionary were such:

1: To choose the scientific book where the author will try to explain the (= him =) the point of view so clearly as far as it is possible, resulting (= giving =) repeated examples with use of rather formal language.
2: To choose a theme with which you are familiar so, that can do{make} from time to time the proved assumptions of meaning of unknown (= unfamiliar =) to you words.

But even under all these conditions the promotion is too (= very much =) slowly. So, I have chosen really hard text, for this reason it has drawn my attention.

Enter (enter the data) in "Jargonizer". This is the program at C # which I have finished today, basically drawing histograms analyzing the text. It (= the program =) returns a file with two columns: words and number of their occurrences in the text. I have manually removed words which I know, and have received the list with 200 (= two hundred =) most frequently meeting unknown to me words in text. It should me facilitate (= to speed up =) reading.

My program, similar to Yours, for the English text does not count frequency of occurrence of words, but deletes words with one and two letters, and also words familiar to me. On an output{exit} I receive a file with the list of unfamiliar words with translation. From their quantity ( = amount = ) I can estimate text's complexity. From the initial data I have sorted list of words familiar to me and, accordingly, the sorted too full English-Russian dictionary at text DOS format. If You want, I can send You Russian-English and English-Russian dictionaries with 58000 words at 1,5 mbytes volume everyone. Certainly, I understand, that for translation of the Russian text the program will be more complex{difficult}, than for English!

Alexander_gymnast...

Ответить | Ветвь дискуссии