commit 4901888b3bcba854daea072ba969149abbc1356a Author: MambetniyazovAmir Date: Tue Jun 2 14:09:37 2020 +0500 created texts diff --git a/apertium-uzb-kaa.uzb-kaa.dix b/apertium-uzb-kaa.uzb-kaa.dix index a7f5426..733a59a 100644 --- a/apertium-uzb-kaa.uzb-kaa.dix +++ b/apertium-uzb-kaa.uzb-kaa.dix @@ -19491,10 +19491,9 @@

AsalAsal

uy úy

ol al

-

ular olar

tashqari sırt

OygulAygúl

BaxtiyorBaxtıyar

- +

ular olar

diff --git a/testvoc/corpus/uzb-kaa-new-line-wer.txt b/testvoc/corpus/uzb-kaa-new-line-wer.txt deleted file mode 100644 index 766fd9d..0000000 --- a/testvoc/corpus/uzb-kaa-new-line-wer.txt +++ /dev/null @@ -1,14 +0,0 @@ -Statistics about input files -------------------------------------------------------- -Number of words in reference: 356 -Number of words in test: 343 -Number of unknown words (marked with a star) in test: 88 -Percentage of unknown words: 25.66 % - -Results when removing unknown-word marks (stars) -------------------------------------------------------- -Edit distance: 267 -Word error rate (WER): 75.00 % -Number of position-independent correct words: 120 -Position-independent word error rate (PER): 66.29 % - diff --git a/testvoc/corpus/uzb-kaa-new-wer.txt b/testvoc/corpus/uzb-kaa-new-wer.txt deleted file mode 100644 index 917e4fb..0000000 --- a/testvoc/corpus/uzb-kaa-new-wer.txt +++ /dev/null @@ -1,28 +0,0 @@ -Test file: 'testvoc/corpus/uzb-kaa-new.txt' -Reference file 'testvoc/corpus/kaa-new.txt' - -Statistics about input files -------------------------------------------------------- -Number of words in reference: 356 -Number of words in test: 343 -Number of unknown words (marked with a star) in test: 88 -Percentage of unknown words: 25.66 % - -Results when removing unknown-word marks (stars) -------------------------------------------------------- -Edit distance: 267 -Word error rate (WER): 75.00 % -Number of position-independent correct words: 127 -Position-independent word error rate (PER): 64.33 % - -Results when unknown-word marks (stars) are not removed -------------------------------------------------------- -Edit distance: 273 -Word Error Rate (WER): 76.69 % -Number of position-independent correct words: 120 -Position-independent word error rate (PER): 66.29 % - -Statistics about the translation of unknown words -------------------------------------------------------- -Number of unknown words which were free rides: 6 -Percentage of unknown words that were free rides: 6.82 % diff --git a/testvoc/corpus/uzb-kaa-next-wer.txt b/testvoc/corpus/uzb-kaa-next-wer.txt deleted file mode 100644 index 96b28c7..0000000 --- a/testvoc/corpus/uzb-kaa-next-wer.txt +++ /dev/null @@ -1,28 +0,0 @@ -Test file: 'testvoc/corpus/uzb-kaa-next.txt' -Reference file 'testvoc/corpus/kaa.txt' - -Statistics about input files -------------------------------------------------------- -Number of words in reference: 347 -Number of words in test: 338 -Number of unknown words (marked with a star) in test: 47 -Percentage of unknown words: 13.91 % - -Results when removing unknown-word marks (stars) -------------------------------------------------------- -Edit distance: 212 -Word error rate (WER): 61.10 % -Number of position-independent correct words: 153 -Position-independent word error rate (PER): 55.91 % - -Results when unknown-word marks (stars) are not removed -------------------------------------------------------- -Edit distance: 216 -Word Error Rate (WER): 62.25 % -Number of position-independent correct words: 149 -Position-independent word error rate (PER): 57.06 % - -Statistics about the translation of unknown words -------------------------------------------------------- -Number of unknown words which were free rides: 4 -Percentage of unknown words that were free rides: 8.51 % diff --git a/testvoc/corpus/uzb-kaa-next.txt b/testvoc/corpus/uzb-kaa-next.txt deleted file mode 100644 index bd18bfd..0000000 --- a/testvoc/corpus/uzb-kaa-next.txt +++ /dev/null @@ -1 +0,0 @@ -ÁZIZ #QAY JERDE? Áziz #menen #Asal baǵda. Búgin *ob-hawa júdá jaqsı, jıllı. Lekin keshe júdá suwıq boldı. Usı #sebep @li olar sırtta *o’*ynay *olishmadi. Áziz *va #Asal #oyna jaqsı #soqır, olar #hár *doyim úlken úydiń #aldı baǵda birge *o’*ynashadi. Áziz altı *yoshli kishkene bala. Qız onıń *singlisi, ol bes *yoshda. Ázizdiń kishkene bir *kuchugi #bar, házir ol hám baǵda. Kushık balalar #menen #oyna jaqsı #soqır. *Kuchugi házir júdá *xursand. #Asal #chi, *kuchugi *bormi? Joq, #Asal *kuchugi joq, onıń *mushugi #bar. Lekin *mushugi úyde, uyıqlamaqta. Olardıń anası *mushugi #menen birge úyde, ol áynekten Áziz #menen #Asal *oyiniga qarap turǵan eken. Áziz eski bir terekke qarap tez júgirip ketpekte, ol #Asal *yashiriniyabdi. Ne ushın *ekanligini bilesizlir ma? Pal qolı #menen #kóz jabıp otırǵan eken. Ol hesh zattı #soqır, ol sanamaqta. #Asal ne ushın #bunday qılmaqta? *Va Áziz terek *yonida ne qılmaqta? Bul oyın. #Asal sanap bolǵanınan keyin átirapına qaradı. Ol "#Azamat #qay jerge ketti? Onı #soqır ma?" dep qıdırmaqta. #Asal Ázizdiń #qay jerde *ekanligini bilmeydi. Kushıkten "Ázizdi #soqır ma?" dep soramaqta. Lekin, álbette, kushık *gapira almaydı. Usınıń ushın #Asal óz sorawına juwap #ala almadı. #Odam *iyt #menen *gaplashganida odan hesh *qachon juwap #ala *olishmaydi! #Asal áynekten anasına qaraydı, anası ırjıymaqta. #Asal ol Ázizdiń #qay jerge *ketganligini biledi *dep oylamaqta. "Áziz #qay jerde, aytıńlar!" dep soraydı. "Joq, #Asal, *ayta almayman!" - dep anası juwap *berdi. Ol Ázizdiń #qay jerde *ekanligini #bil hám #ayt *xohlamadi. #Asal baǵ ishinde #áste júrgen eken. Ol *haliyam Ázizdi #tap háreket qılmaqta. Ol stol *va stullardıń *tagini qıdırıp júrgen eken, lekin Áziz hesh #qay jerde joq. #Asal hámme jaydı qıdırıp júrgen eken, lekin onı *topa #al. Keyin ol bir dawıs esitti, bul dawıs eski úlken terektiń #artıdan shıqpaqta. Bul Áziz #bolıw múmkin. Dawıs jáne esitildi! #Asal #dıqqat #menen tıńlaydı. Bul qus hám, haywan hám emes. Ol dawıstı jaqsı esitpekte. Bul Áziz #bol kerek! Keyin ol bir kishkene qol #soqır, *yaqinroq barǵanında #bolsa, basın hám #soqır. #Asal "Men *seni *toptim!" - dep kúledi. Olar #eki hám *hursand bolıp úyine kelmekte, bir zat jep, *oziroq suw *ichadigan waqıt boldı. diff --git a/texts/story-kaa-uzb.txt b/texts/story-kaa-uzb.txt new file mode 100644 index 0000000..9c1d3d9 --- /dev/null +++ b/texts/story-kaa-uzb.txt @@ -0,0 +1,11 @@ +1 Baxtiyor *QAY MAVZEDA? +2 Baxtiyor *benen #Aygúl bogʻda. Bugun havo-ra’yi yaxshi, juda iliq. *Biraq kecha juda sovuq boʻldilar/boʻlishdi/boʻldiishsa. Ular *dalada #uyna olmadilar/olmashdi/olmadiishsa. Baxtiyor *benen #Aygúl uynaganni yaxshi koradilar, ular *barqulla muazzam uyning *aldındaǵı bogʻda birga uynaydilar/uynaedilar. +3 Baxtiyor olti *jasar kichkina bola. Qiz oʻning singili, u besh *jasta. *Baxtıyartıń kichkina bir *kúshigi bor, hozir u @da bogʻda. *Kúshik #bola uynaganni yaxshi koradilar. *Kúshigi hozir juda quvonchli. +4 Ol #Aygúl *kúshigi borma? *Yaq, #Aygúl *kúshigi yoʻq, oʻning mushuki bor. *Biraq mushuki uyda, #uxla *atır. +5 Ularning #ana #mushuk birga uyda, u oynadan Baxtiyor *benen #Aygúl uynaganiga #qara tur. Baxtiyor eski muazzam bir daraxtga #qara qatni #yugur *baratır, u #Aygúl #berkin *atır. Nima uchun *ekenligin #bil mi? #Aygúl #qol koʻzlarini *jawıp oʻtir. U hech *nárseni #kor turgani yoʻq, u #sana *atır. #Aygúl nima uchun #bu #qil *atır? Ham Baxtiyor daraxtning qasdida nima #qil *atır? +6 Bu oyini. #Aygúl #sana boʻlgandan keyin atrofiga qaradilar/qarashdi/qaradiishsa. U "Baxtiyor *qay mavzega ketdilar/ketishdi/ketdiishsa? Oʻni #kor mi?" - #de #izla *atır. +7 #Aygúl *Baxtıyartıń *qay mavzeda *ekenin bilmaydilar/bilmaedilar. *Kúshikten "*Baxtıyartı *kórdińbe" - #de #soʻra *atır. *Biraq *kúshik, albatta, *sóyley olmaydilar/olmaedilar. Oʻshaning uchun #Aygúl oʻz soʻrauviga javob #ol olmaydilar/olmaedilar. Adamlar #hoʻppak *sóyleskende undan hech #qachon javob #ol olmaydilar/olmaedilar! +8 #Aygúl oynadan #ana qaraydilar/qaraedilar, #ana #jilmay *atır. #Aygúl u *Baxtıyartıń *qay mavzega ketganini biladilar #de #oʻyla *atır. "Baxtiyor *qay mavzeda, #ayt!" - #de soʻraydilar/soʻraedilar. "*Yaq, #Aygúl, #ayt olmayman/olmaeman!" - #de #ana javob *berdi. U *Baxtıyartıń *qay mavzega *ekenligin #bil @da #ayt kelmadilar/kelmashdi/kelmadiishsa. +9 #Aygúl bogʻning ishida *áste #yur. U hali *Baxtıyartı topuvga harakat #qil yur. U stol ham *orındıqlardıń *astın #izla *atır, *biraq Baxtiyor hech mavzeda yoʻq. U hamma mavzeni #qara *atır, *biraq oʻni #top #ol *atır. +10 Keyin u bir sado eshitadilar, bu sado eski muazzam daraxtning *artınan #chiq *atır. #Mumkin bu Baxtiyor chiqar? Sado yana eshitildilar/eshitilishdi/eshitildiishsa! #Aygúl *dıqqat *penen tinglaydilar/tinglaedilar. Bu qush @da, hayvon @da emas. U sadoni aniq #eshit *atır. Bu Baxtiyor boʻluvi joiz! +11 Keyin u kichkina bir qol koradilar, ol *jaqınraq #kel vaqtda u *Baxtıyartıń basini ham koradilar! #Aygúl "*seni topdim" - #de kuladilar. Ular #ikki @da quvonchli uyga *kiyatır, bir *nárse #ye, *azıraq suv #ich vaqt boʻldilar/boʻlishdi/boʻldiishsa! diff --git a/testvoc/corpus/kaa-new.txt b/texts/story-kaa.txt similarity index 100% rename from testvoc/corpus/kaa-new.txt rename to texts/story-kaa.txt diff --git a/testvoc/corpus/uzb-kaa-new.txt b/texts/story-uzb-kaa.txt similarity index 100% rename from testvoc/corpus/uzb-kaa-new.txt rename to texts/story-uzb-kaa.txt diff --git a/testvoc/corpus/uzb-new.txt b/texts/story-uzb.txt similarity index 100% rename from testvoc/corpus/uzb-new.txt rename to texts/story-uzb.txt