培訓(xùn)啦留學(xué) 托?？荚?/a> > 中山托福培訓(xùn)

托福口語是機器打分還是人工打分

發(fā)布時間: 2024年12月27日 09:56

2025年【出國留學(xué)】申請條件/費用/專業(yè)咨詢 >>

留學(xué)院校申請條件是什么？留學(xué)費用是多少？學(xué)校留學(xué)專業(yè)都有哪些？

點擊咨詢

托?？谡Z是機器打分還是人工打分

大家比較關(guān)心托?？谡Z的打分方式，下面我就和大家聊聊這個話題。

【托?？谡Z】托?？谡Z評分時人工還是機器

托?？谡Z本次改革引入自動評分系統(tǒng)，其實這項計劃早就在準(zhǔn)備中了，這從ETS這份官方報告當(dāng)中就可以看出，其實現(xiàn)在所使用的引擎已經(jīng)是5.0版本的引擎，下面我們就來看一下托?？谡Z機器評分的要點。

19年托福改革后，我們可以非常肯定地告訴大家，托福口語一定是機器批改，至少機器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù)，最新版本的托?？谡Z機器評分系統(tǒng)Speech Rater與人工評分的相關(guān)性系數(shù)是0.81。說實話，官方單純的拿這么一個統(tǒng)計學(xué)系數(shù)擺在我們的面前，對于考生或者是托福資深教師而言是沒有感覺的，這個系數(shù)到底是偏高還是偏低，究竟什么數(shù)值范圍值得我們進行參考，根本就無從比較。

真人教師來核查的幾率不是100%的，所以盡量不要在結(jié)尾處留太多的空白。這樣機器肯定首先就會給考生扣分。但是為了防止教師來核查，復(fù)聽，建議考生在備考托?？谡Z的時候，學(xué)會掌控時間，盡量不要超時太久。再給考生一個小建議：在托?？谡Z考試中，盡量不要停止說話，如果沒話說就多說點套話，在平時的練習(xí)中，針對機經(jīng)上的重點話題進行準(zhǔn)備。

隨著越來越多的年輕學(xué)生在世界范圍內(nèi) 學(xué)習(xí)英語作為第二語言(English as a Foreign Language)，為青少年語言學(xué)生(Young Language Students)設(shè)計的標(biāo)準(zhǔn)化語言考試 (比如托?？荚?。

變得越來越受歡迎。鑒于這一快速增長的趨勢，需要更好地理解年輕學(xué)生的語言發(fā)展模式和語言表現(xiàn)的語言特征成為語言學(xué)教師的需求。根據(jù)2014年，兩位口語測評學(xué)者Bailey&Heritage的研究，語言發(fā)展模式和語言表現(xiàn)對于語言學(xué)評估的創(chuàng)建提供指導(dǎo)和指導(dǎo)至關(guān)重要。ETS于是系統(tǒng)地進行實證研究：在青少年語言學(xué)生中檢查其英語語言能力(English Language Proficiency)的進展以便驗證青少年語言學(xué)生評估任務(wù)和評分標(biāo)準(zhǔn)，并為基于測試結(jié)果的提供有效性證據(jù)(Kane，2013)。

在目前ETS采用的機改Speech Rater的系統(tǒng)中，對于托?？谡Z測評是何以科學(xué)、公正以及客觀地對考生們進行評價的呢?根據(jù)ETS最新的一項研究, 自1996年就有語言學(xué)學(xué)者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均話語長度(mean length of run) 這項指標(biāo)來對考生們的流利度進行測評。

通俗易懂的說法，就是在托?？荚囍心愕乃?huh", "uh", "erm", "um", and “well" (filled pause)都會被計數(shù)，當(dāng)頻率高到一定程度，就會被認(rèn)為是弱流利度，另一種就是沉默(silent pauses), 在整個口語回答的過程中如果出現(xiàn)長間斷，那么系統(tǒng)會自動把你的口語歸為弱流利度。而托?？谡Z考試的不同任務(wù)(task)其對考生們的語言能力和認(rèn)知能力都有所不同，因此在進行口語獨立任務(wù)(independent speaking task)設(shè)計和口語綜合任務(wù)(integreated speaking task)設(shè)計的過程中。

在這項研究中，青少年(YLS)與成人考生(Adult learner)的流利度水平在兩個任務(wù)的機評效果中都出現(xiàn)了較為穩(wěn)定的表現(xiàn)。因此我們可以得出客觀結(jié)論，在口語流利度方面，考生們在口語獨立任務(wù)和口語綜合任務(wù)之間較少會出現(xiàn)流利度偏差。

最新的5.0引擎當(dāng)中，最新版的引擎已經(jīng)極為接近于真人閱卷者進行了評分，在ets官方所發(fā)布的資料當(dāng)中，真人評分和機器評分的相關(guān)系數(shù)已經(jīng)達到了0.81，換句話說也就是，ETS在告訴大家：我們這套系統(tǒng)已經(jīng)做得挺好了，已經(jīng)敢拿出來給你們看一看了。最為影響最終分?jǐn)?shù)的3個影響因素，他們分別是：平均沉默時長，單詞重復(fù)率，和語速。

今天我們再來看另外8個重要的影響因素。

很顯然在這里排名第4位的影響因素，就是Total acoustic model score for all words with model trained on native data，看了這段生澀的語言，說實話無老師也有點要吐了。這個名詞，還真有點不是特別好解釋。總而言之，這個其實涉及到ETS在評分過程當(dāng)中具體的一個流程，也就是在Speech Rater進行評分的時候，其實有一個關(guān)鍵性的步驟，就是讓機器來識別，考生本人所說的英語是否是地道的英語，這個主要是從發(fā)音和節(jié)奏來進行判斷，就是當(dāng)你的口語越接近于地道的發(fā)音，那么你的分?jǐn)?shù)越高，反之亦然。這個影響系數(shù)達到了0.81，因此也就有了下面第2條影響因素，Total acoustic model score with model trained on nonnative data。

如上的4條，是所有的影響系數(shù)高于0.7的影響因素，接下來所列出的7條，影響系數(shù)全都低于0.7且高于0.5，這也就意味著對于最終分?jǐn)?shù)的影響，沒有前面4條影響那么大，但是同時也比較重要。

其中4條高于0.6的影響因素分別是，

Average of chunk length in seconds——平均意群的長度

No.repetitions——重復(fù)程度

Score point with the highest grammatical similarity score——語法的相似程度

Total no. different lexical types——詞匯的多樣性

Average of chunk length in seconds——平均意群的長度，歸屬大類Fluency——流暢：影響因子0.66，

這意味著，句子如果全都是三個詞，類似于I like you的簡單句，那么得分一定會偏低，但是如果能多用一些固定搭配、或者一些修飾性的成分，使得這個句子一方面不脫離口語化，不會像書面語那么復(fù)雜，同時句式的內(nèi)容也可以比較豐富和飽滿，那么得分就會提高。當(dāng)然這一條的解讀還可以有很多的層次，無老師在此就先不一一展開了。

No.repetitions——重復(fù)程度，歸屬大類Fluency——流暢：影響系數(shù)0.61。

把重復(fù)程度放在流暢程度當(dāng)中，說實話有點奇怪，既然放在流暢程度這個大類當(dāng)中，估計在這里面所表述的是，你是否會出現(xiàn)結(jié)巴的情況，也就是會連續(xù)反復(fù)同一句話。

托福口語評分標(biāo)準(zhǔn)

口語“are rated by three to six raters”指的是每道題只有一位考官打分，但不同題目的打分考官可能不同，一位考生的六道題目最少會有三位考官，最多會有六位( 每道題一位)。最后評分不會特別偏重某類題型，比如說獨立或綜合。所以，總體而言，ETS 的評分用一個詞來講是：holistic，即，考慮考試口語內(nèi)容的整體性。也就是說，ETS 口語評分標(biāo)準(zhǔn)不會因某個具體方面而出現(xiàn)偏重，如，在不影響理解的前提下，語音語調(diào)不好不會成為扣分原因。在holistic 這一標(biāo)準(zhǔn)下，ETS 的最重要考慮因素是：intelligible, 可理解為可以順暢的讓考官聽懂考生的表述內(nèi)容。在holistic 和intelligible 兩個標(biāo)準(zhǔn)之外，對答題內(nèi)容而言，有如下三個評分維度：

1.Structure

2.Content

3.Language

Structure，即結(jié)構(gòu)，總體來講，ETS 評分官特別希望考生能夠在答題部分給出清晰的結(jié)構(gòu)。其中結(jié)構(gòu)要求主要包括：

1)主題句thesis statement：在開頭部分明確地表明自己的觀點。

2)過渡詞：在中間部分有明顯的邏輯連接詞或表過渡的信號提示詞。

3)結(jié)論：如果時間允許，做簡單地總結(jié) 。

content, 即內(nèi)容。ETS 有如下要求：

1)主題明確：明確地給出觀點。

2)簡單明了：不要過多的使用bigwords 和復(fù)雜句型;用考生經(jīng)常使用熟練的詞匯。

3)細節(jié)論點到位：獨立話題例子論點和細節(jié)提供詳細;綜合話題涉及聽力和閱讀部分分別提到的具體信息，如，Task5 的聽力部分女學(xué)生提到自己很忙，困惑于時間的安排，最近需要：準(zhǔn)備考試，寫2 篇論文，還有一個志愿者活動要參加。ETS 對于細節(jié)的期待是：希

望考生可以將學(xué)生需要完成的事情：準(zhǔn)備考試，寫2 篇論文，還有一個志愿者活動要參加這些細節(jié)都囊括到自己的回答部分中。所以，可以看出，ETS 十分看重考生對聽力和閱讀部分細節(jié)信息的整理和轉(zhuǎn)述。

language，即語言，語言的要求包括：

1)流暢：對語速的要求并不是越快越好。最好考生是sustained speed, 即能夠以穩(wěn)定的速度順暢的表達自己的觀點，中間偶有小的停頓可以接受。

2)語音：發(fā)音標(biāo)準(zhǔn)是前提，語音語調(diào)地道對分?jǐn)?shù)有一定的積極影響。ETS 給出評分參考是：只要不影響評分官的理解，即使語音語調(diào)不好，也不會扣分或影響分?jǐn)?shù)。

3)允許語法錯誤：ETS 口語評分原則中明確指出考生的表述中可以存在小的語法錯誤，但是語法錯誤不允許重復(fù)出現(xiàn)。

很多考生對于口語評分經(jīng)常會抱有疑問，進而會選擇復(fù)議。而口語成績的復(fù)議成功率是有跡可循的。

托?？谡Z評分標(biāo)準(zhǔn)哪一個點最重要?

托福口語評分采取 Holistic Rubric Standing(整體評分制)，即同時參照以下三個標(biāo)準(zhǔn)進行整體打分:Delivery(語言表達)、Language Use(語言使用)、Topic Development(話題展開)。但是，對多數(shù)中國考生來說，主要問題是 Delivery(語言表達)不夠清晰、流暢，所以學(xué)習(xí)重心應(yīng)該放在提高流暢性和清晰度上面。

托?？谡Z是機器打分還是人工打分相關(guān) 文章：

1. 清楚了解托?？谡Z的評分標(biāo)準(zhǔn)

2. 4個層面進行闡述新托?？谡Z考試評分標(biāo)準(zhǔn)

3. 托?？谡Z幾分算高及快速提分技巧

4. 托福口語考試多少分算高分

5. 中國考生在參加托?？谡Z時總是低分的三大問題大剖析

6. 托福口語成績復(fù)議一般多久

7. 托?？谡Z考試一共多少道題

8. 托?？谡Z備考到底要不要背?合理記憶才能助力口語提分

9. 這些問題你遇到過嗎?托?？谡Z備考的3大難點

10. 托福口語流利不是高分的保障