Index: incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix =================================================================== --- incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix (revision 66808) +++ incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix (revision 66809) @@ -22,6 +22,7 @@ + @@ -83,7 +84,7 @@ - + @@ -180,6 +181,40 @@

coчто

jakкак

+ + +

bezбез

+

dlaдля

+

dziękiблагодаря

+

kołoоколо

+

kuк

+

międzyмежду

+

naна

+

nadнад

+

obokвозле

+

odот

+

opróczкроме

+

poпосле

+

podпод

+

ponadсвыше

+

pozaвне

+

przeciwпротив

+

przedспереди

+

przezчерез

+

wв

+

w stosunku doотносительно

+

wbrewвопреки

+

wedługпо

+

wewnątrzвнутри

+

wobecперед

+

wokółвокруг

+

wśródсреди

+

wzdłużвдоль

+

zиз

+

zamiastвместо

+ + +

znajomyзнакомый

przyjacielдруг

przyjaciółkaподруга

@@ -186,6 +221,7 @@

przyjacieleдрузья

aspektniedokonanyнесовершенныйвид

aspektdokonanyсовершенныйвид

+

jutroзавтра

wcześnieрано

@@ -192,5 +228,9 @@

ranoутро

jeszczeещё

ćwiczenieупражнение

+ + +

być

+ Index: incubator/apertium-pol-rus/dev/get_prepositions.py =================================================================== --- incubator/apertium-pol-rus/dev/get_prepositions.py (nonexistent) +++ incubator/apertium-pol-rus/dev/get_prepositions.py (revision 66809) @@ -0,0 +1,33 @@ +# -*- coding: utf-8 -*- + +import urllib.request +import lxml +from lxml import etree +import codecs + +req = urllib.request.urlopen('https://pl.wiktionary.org/wiki/Kategoria:J%C4%99zyk_polski_-_przyimki') +maintree = lxml.etree.fromstring(req.read()) +prepositions = [line for par in maintree.xpath('.//div[@class="mw-category"]')[0] for line in par.xpath('.//a[@href]')] + +def translation_verification(translation): + with codecs.open('prepositions.txt', 'r', 'utf-8') as f: + russian_preps = [line.strip()[1:len(line)-5] for line in f] + if translation in russian_preps: + return True + +dictionary = codecs.open('test_dictioanry.xml', 'w', 'utf-8') +for el in prepositions: + print(el.text) + the_prep_page = urllib.request.urlopen('https://pl.wiktionary.org' + el.get('href')).read().decode('utf-8') + + poss_tr = lxml.etree.fromstring(the_prep_page).xpath('.//li') + for hyp in poss_tr: + if hyp.text is not None and hyp.text.startswith('rosyjski:'): + print('got it!') + for child in hyp: + if translation_verification(child.text): + dictionary.write('

' + el.text + '' + child.text + '

\n') + break + +dictionary.close() +