Index: incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix
===================================================================
--- incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix (revision 66808)
+++ incubator/apertium-pol-rus/apertium-pol-rus.pol-rus.dix (revision 66809)
@@ -22,6 +22,7 @@
+
@@ -83,7 +84,7 @@
-
+
@@ -180,6 +181,40 @@
coчто
jakкак
+
+
+ bezбез
+ dlaдля
+ dziękiблагодаря
+ kołoоколо
+ kuк
+ międzyмежду
+ naна
+ nadнад
+ obokвозле
+ odот
+ opróczкроме
+ poпосле
+ podпод
+ ponadсвыше
+ pozaвне
+ przeciwпротив
+ przedспереди
+ przezчерез
+ wв
+ w stosunku doотносительно
+ wbrewвопреки
+ wedługпо
+ wewnątrzвнутри
+ wobecперед
+ wokółвокруг
+ wśródсреди
+ wzdłużвдоль
+ zиз
+ zamiastвместо
+
+
+
znajomyзнакомый
przyjacielдруг
przyjaciółkaподруга
@@ -186,6 +221,7 @@
przyjacieleдрузья
aspektniedokonanyнесовершенныйвид
aspektdokonanyсовершенныйвид
+
jutroзавтра
wcześnieрано
@@ -192,5 +228,9 @@
ranoутро
jeszczeещё
ćwiczenieупражнение
+
+
+ być
+
Index: incubator/apertium-pol-rus/dev/get_prepositions.py
===================================================================
--- incubator/apertium-pol-rus/dev/get_prepositions.py (nonexistent)
+++ incubator/apertium-pol-rus/dev/get_prepositions.py (revision 66809)
@@ -0,0 +1,33 @@
+# -*- coding: utf-8 -*-
+
+import urllib.request
+import lxml
+from lxml import etree
+import codecs
+
+req = urllib.request.urlopen('https://pl.wiktionary.org/wiki/Kategoria:J%C4%99zyk_polski_-_przyimki')
+maintree = lxml.etree.fromstring(req.read())
+prepositions = [line for par in maintree.xpath('.//div[@class="mw-category"]')[0] for line in par.xpath('.//a[@href]')]
+
+def translation_verification(translation):
+ with codecs.open('prepositions.txt', 'r', 'utf-8') as f:
+ russian_preps = [line.strip()[1:len(line)-5] for line in f]
+ if translation in russian_preps:
+ return True
+
+dictionary = codecs.open('test_dictioanry.xml', 'w', 'utf-8')
+for el in prepositions:
+ print(el.text)
+ the_prep_page = urllib.request.urlopen('https://pl.wiktionary.org' + el.get('href')).read().decode('utf-8')
+
+ poss_tr = lxml.etree.fromstring(the_prep_page).xpath('.//li')
+ for hyp in poss_tr:
+ if hyp.text is not None and hyp.text.startswith('rosyjski:'):
+ print('got it!')
+ for child in hyp:
+ if translation_verification(child.text):
+ dictionary.write('' + el.text + '' + child.text + '
\n')
+ break
+
+dictionary.close()
+