培訓(xùn)啦 留學(xué) 托??荚?/a> > 中山托福培訓(xùn)

托福口語是機器打分還是人工打分

發(fā)布時間: 2024年12月27日 09:56

2025年【出國留學(xué)】申請條件/費用/專業(yè)咨詢 >>

留學(xué)院校申請條件是什么?留學(xué)費用是多少?學(xué)校留學(xué)專業(yè)都有哪些?

點擊咨詢

托??谡Z是機器打分還是人工打分

大家比較關(guān)心托??谡Z的打分方式,下面我就和大家聊聊這個話題。

【托??谡Z】托??谡Z評分時人工還是機器

托??谡Z本次改革引入自動評分系統(tǒng),其實這項計劃早就在準(zhǔn)備中了,這從ETS這份官方 報告 當(dāng)中就可以看出,其實現(xiàn)在所使用的引擎已經(jīng)是5.0版本的引擎,下面我們就來看一下托??谡Z機器評分的要點。

19年托福改革后,我們可以非常肯定地告訴大家,托福口語一定是機器批改,至少機器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù),最新版本的托??谡Z機器評分系統(tǒng)Speech Rater與人工評分的相關(guān)性系數(shù)是0.81。說實話,官方單純的拿這么一個統(tǒng)計學(xué)系數(shù)擺在我們的面前,對于考生或者是托福資深教師而言是沒有感覺的,這個系數(shù)到底是偏高還是偏低,究竟什么數(shù)值范圍值得我們進行參考,根本就無從比較。

真人教師來核查的幾率不是100%的,所以盡量不要在結(jié)尾處留太多的空白。這樣機器肯定首先就會給考生扣分。但是為了防止教師來核查,復(fù)聽,建議考生在備考托??谡Z的時候,學(xué)會掌控時間,盡量不要超時太久。再給考生一個小建議:在托??谡Z考試中,盡量不要停止說話,如果沒話說就多說點套話,在平時的練習(xí)中,針對機經(jīng)上的重點話題進行準(zhǔn)備。

隨著越來越多的年輕學(xué)生在世界范圍內(nèi) 學(xué)習(xí)英語 作為第二語言(English as a Foreign Language),為青少年語言學(xué)生(Young Language Students)設(shè)計的標(biāo)準(zhǔn)化語言考試 (比如托??荚?。

變得越來越受歡迎。鑒于這一快速增長的趨勢,需要更好地理解年輕學(xué)生的語言發(fā)展模式和語言表現(xiàn)的語言特征成為語言學(xué)教師的需求。根據(jù)2014年,兩位口語測評學(xué)者Bailey&Heritage的研究,語言發(fā)展模式和語言表現(xiàn)對于語言學(xué)評估的創(chuàng)建提供指導(dǎo)和指導(dǎo)至關(guān)重要。ETS于是系統(tǒng)地進行實證研究:在青少年語言學(xué)生中檢查其英語語言能力(English Language Proficiency)的進展以便驗證青少年語言學(xué)生評估任務(wù)和評分標(biāo)準(zhǔn),并為基于測試結(jié)果的提供有效性證據(jù)(Kane,2013)。

在目前ETS采用的機改Speech Rater的系統(tǒng)中,對于托??谡Z測評是何以科學(xué)、公正以及客觀地對考生們進行評價的呢?根據(jù)ETS最新的一項研究, 自1996年就有語言學(xué)學(xué)者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均話語長度(mean length of run) 這項指標(biāo)來對考生們的流利度進行測評。

通俗易懂的說法,就是在托??荚囍心愕乃?huh", "uh", "erm", "um", and “well" (filled pause)都會被計數(shù),當(dāng)頻率高到一定程度,就會被認(rèn)為是弱流利度,另一種就是沉默(silent pauses), 在整個口語回答的過程中如果出現(xiàn)長間斷,那么系統(tǒng)會自動把你的口語歸為弱流利度。而托??谡Z考試的不同任務(wù)(task)其對考生們的語言能力和認(rèn)知能力都有所不同,因此在進行口語獨立任務(wù)(independent speaking task)設(shè)計和口語綜合任務(wù)(integreated speaking task)設(shè)計的過程中。

在這項研究中,青少年(YLS)與成人考生(Adult learner)的流利度水平在兩個任務(wù)的機評效果中都出現(xiàn)了較為穩(wěn)定的表現(xiàn)。因此我們可以得出客觀結(jié)論,在口語流利度方面,考生們在口語獨立任務(wù)和口語綜合任務(wù)之間較少會出現(xiàn)流利度偏差。

最新的5.0引擎當(dāng)中,最新版的引擎已經(jīng)極為接近于真人閱卷者進行了評分,在ets官方所發(fā)布的資料當(dāng)中,真人評分和機器評分的相關(guān)系數(shù)已經(jīng)達到了0.81,換句話說也就是,ETS在告訴大家:我們這套系統(tǒng)已經(jīng)做得挺好了,已經(jīng)敢拿出來給你們看一看了。最為影響最終分?jǐn)?shù)的3個影響因素,他們分別是:平均沉默時長,單詞重復(fù)率,和語速。

今天我們再來看另外8個重要的影響因素。

很顯然在這里排名第4位的影響因素,就是Total acoustic model score for all words with model trained on native data,看了這段生澀的語言,說實話無老師也有點要吐了。這個名詞,還真有點不是特別好解釋。總而言之,這個其實涉及到ETS在評分過程當(dāng)中具體的一個流程,也就是在Speech Rater進行評分的時候,其實有一個關(guān)鍵性的步驟,就是讓機器來識別,考生本人所說的英語是否是地道的英語,這個主要是從發(fā)音和節(jié)奏來進行判斷,就是當(dāng)你的口語越接近于地道的發(fā)音,那么你的分?jǐn)?shù)越高,反之亦然。這個影響系數(shù)達到了0.81,因此也就有了下面第2條影響因素,Total acoustic model score with model trained on nonnative data。

如上的4條,是所有的影響系數(shù)高于0.7的影響因素,接下來所列出的7條,影響系數(shù)全都低于0.7且高于0.5,這也就意味著對于最終分?jǐn)?shù)的影響,沒有前面4條影響那么大,但是同時也比較重要。

其中4條高于0.6的影響因素分別是,

Average of chunk length in seconds——平均意群的長度

No.repetitions——重復(fù)程度

Score point with the highest grammatical similarity score——語法的相似程度

Total no. different lexical types——詞匯的多樣性

Average of chunk length in seconds——平均意群的長度,歸屬大類Fluency——流暢:影響因子0.66,

這意味著,句子 如果全都是三個詞,類似于I like you的簡單句,那么得分一定會偏低,但是如果能多用一些固定搭配、或者一些修飾性的成分,使得這個句子一方面不脫離口語化,不會像書面語那么復(fù)雜,同時句式的內(nèi)容也可以比較豐富和飽滿,那么得分就會提高。當(dāng)然這一條的解讀還可以有很多的層次,無老師在此就先不一一展開了。

No.repetitions——重復(fù)程度,歸屬大類Fluency——流暢:影響系數(shù)0.61。

把重復(fù)程度放在流暢程度當(dāng)中,說實話有點奇怪,既然放在流暢程度這個大類當(dāng)中,估計在這里面所表述的是,你是否會出現(xiàn)結(jié)巴的情況,也就是會連續(xù)反復(fù)同一句話。

托福口語評分標(biāo)準(zhǔn)

口語“are rated by three to six raters”指的是每道題只有一位考官打分,但不同題目的打分考官可能不同,一位考生的六道題目最少會有三位考官,最多會有六位( 每道題一位)。最后評分不會特別偏重某類題型,比如說獨立或綜合。所以,總體而言,ETS 的評分用一個詞來講是:holistic,即,考慮考試口語內(nèi)容的整體性。也就是說,ETS 口語評分標(biāo)準(zhǔn)不會因某個具體方面而出現(xiàn)偏重,如,在不影響理解的前提下,語音語調(diào)不好不會成為扣分原因。在holistic 這一標(biāo)準(zhǔn)下,ETS 的最重要考慮因素是:intelligible, 可理解為可以順暢的讓考官聽懂考生的表述內(nèi)容。在holistic 和intelligible 兩個標(biāo)準(zhǔn)之外,對答題內(nèi)容而言,有如下三個評分維度:

1.Structure

2.Content

3.Language

Structure,即結(jié)構(gòu),總體來講,ETS 評分官特別希望考生能夠在答題部分給出清晰的結(jié)構(gòu)。其中結(jié)構(gòu)要求主要包括:

1)主題句thesis statement:在開頭部分明確地表明自己的觀點。

2)過渡詞:在中間部分有明顯的邏輯連接詞或表過渡的信號提示詞。

3)結(jié)論:如果時間允許,做簡單地 總結(jié) 。

content, 即內(nèi)容。ETS 有如下要求:

1)主題明確:明確地給出觀點。

2)簡單明了:不要過多的使用bigwords 和復(fù)雜句型;用考生經(jīng)常使用熟練的詞匯。

3)細節(jié)論點到位:獨立話題例子論點和細節(jié)提供詳細;綜合話題涉及聽力和閱讀部分分別提到的具體信息,如,Task5 的聽力部分女學(xué)生提到自己很忙,困惑于時間的安排,最近需要:準(zhǔn)備考試,寫2 篇論文,還有一個志愿者活動要參加。ETS 對于細節(jié)的期待是:希

望考生可以將學(xué)生需要完成的事情:準(zhǔn)備考試,寫2 篇論文,還有一個志愿者活動要參加這些細節(jié)都囊括到自己的回答部分中。所以,可以看出,ETS 十分看重考生對聽力和閱讀部分細節(jié)信息的整理和轉(zhuǎn)述。

language,即語言,語言的要求包括:

1)流暢:對語速的要求并不是越快越好。最好考生是sustained speed, 即能夠以穩(wěn)定的速度順暢的表達自己的觀點,中間偶有小的停頓可以接受。

2)語音:發(fā)音標(biāo)準(zhǔn)是前提,語音語調(diào)地道對分?jǐn)?shù)有一定的積極影響。ETS 給出評分參考是:只要不影響評分官的理解,即使語音語調(diào)不好,也不會扣分或影響分?jǐn)?shù)。

3)允許語法錯誤:ETS 口語評分原則中明確指出考生的表述中可以存在小的語法錯誤,但是語法錯誤不允許重復(fù)出現(xiàn)。

很多考生對于口語評分經(jīng)常會抱有疑問,進而會選擇復(fù)議。而口語成績的復(fù)議成功率是有跡可循的。

托??谡Z評分標(biāo)準(zhǔn)哪一個點最重要?

托福口語評分采取 Holistic Rubric Standing(整體評分制),即同時參照以下三個標(biāo)準(zhǔn)進行整體打分:Delivery(語言表達)、Language Use(語言使用)、Topic Development(話題展開)。但是,對多數(shù)中國考生來說,主 要問題是 Delivery(語言表達)不夠清晰、流暢,所以學(xué)習(xí)重心應(yīng)該放在提高流暢性和清晰度上面。

托??谡Z是機器打分還是人工打分相關(guān) 文章 :

1. 清楚了解托??谡Z的評分標(biāo)準(zhǔn)

2. 4個層面進行闡述新托??谡Z考試評分標(biāo)準(zhǔn)

3. 托??谡Z幾分算高及快速提分技巧

4. 托福口語考試多少分算高分

5. 中國考生在參加托??谡Z時總是低分的三大問題大剖析

6. 托福口語成績復(fù)議一般多久

7. 托??谡Z考試一共多少道題

8. 托??谡Z備考到底要不要背?合理記憶才能助力口語提分

9. 這些問題你遇到過嗎?托??谡Z備考的3大難點

10. 托福口語流利不是高分的保障

托??谡Z是機器評分還是人評分

托??谡Z是機器評分還是人評分:托??谡Z目前采用人工評分和機器評分相結(jié)合。托??谡Z機器評分是把答案錄音老師再判分,口語滿分為24分,轉(zhuǎn)換為標(biāo)準(zhǔn)分后滿分為30分。有4個評分標(biāo)準(zhǔn),分別是4分、3分、2分、1分。

在19年托福改革后,托??谡Z機器批改的程度大大提高,至少機器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù),最新版本的托??谡Z機器評分系統(tǒng)SpeechRater與人工評分的相關(guān)性系數(shù)是0.81。

真人教師來核查的幾率不是百分百的,所以盡量不要在結(jié)尾處留太多的空白。這樣機器肯定首先就會給考生扣分。但是為了防止教師來核查,復(fù)聽,建議考生在備考托??谡Z的時候,學(xué)會掌控時間,盡量不要超時太久。

再給考生一個小建議:在托??谡Z考試中,盡量不要停止說話,如果沒話說就多說點套話,在平時的練習(xí)中,針對機經(jīng)上的重點話題進行準(zhǔn)備。

托??谡Z評分標(biāo)準(zhǔn),托??谡Z中包含六道題,每道題只有45-60秒的作答時間,具體評分細則如下:

1. 每道口語題會被一位考官給一個原始分(0-4 之間的整數(shù)分)。

2. 一個考生的六道口語題,會被至少兩到三位考官評分。

3. 六道口語題的分?jǐn)?shù)加在一起(0-24分),取算數(shù)平均值(0-4分之間,但會出現(xiàn)小數(shù)點后0/.83/.66/.50/.33/.16
六種不同情況)。

4. 該平均值根據(jù)一定的規(guī)則,轉(zhuǎn)換為0-30分的總分。

托福口語要求:

第1、2題是獨立回答題,要求考生就某一話題闡述自己的觀點。準(zhǔn)備時間為15秒,回答問題時間為45秒。問題被朗讀出來,同時會出現(xiàn)在屏幕上。

第3、4題要求考生首先在45秒內(nèi)閱讀一段短文,隨后把短文隱去,播放一段與短文有關(guān)的對話或課堂演講。最后,要求考生根據(jù)先前閱讀的短文和播放的對話或課堂演講回答相關(guān)問題,考生有30秒鐘的準(zhǔn)備時間,然后進行60秒鐘的回答。

第5、6題要求考生聽一段校園情景對話或課堂演講,然后回答相關(guān)問題??忌?0秒鐘的準(zhǔn)備時間,之后進行60秒鐘的回答。

托福口語是誰批改的?

托福英語有機改也有人為批改
是由美國教授批改的(大部分是普林斯頓大學(xué)的)考場當(dāng)?shù)氐挠⒄Z水平(特別是口音)其實影響不大,他們考察的主要是邏輯。你想,印度人的口語平均分比中國人都高,肯定不是因為口音吧

托??荚嚈C器批改還是人工批改

寫作部分機器參與批卷 也就是e-rater 因為最近由于金融危機 如果全是老師批 薪水ets付不起
當(dāng)然 人工還是要參與到寫作評分中 主要是為了防止機器有故障導(dǎo)致慘案發(fā)生
口語的話 我相信機器不可能參與到批卷 否則 印度阿三或者日韓同志 不就天天慘案了?

雅思考試 托??荚?/a> 留學(xué)攻略 留學(xué)院校庫

溫馨提示:
本文【托??谡Z是機器打分還是人工打分】由作者教培參考提供。該文觀點僅代表作者本人,培訓(xùn)啦系信息發(fā)布平臺,僅提供信息存儲空間服務(wù),若存在侵權(quán)問題,請及時聯(lián)系管理員或作者進行刪除。
我們采用的作品包括內(nèi)容和圖片部分來源于網(wǎng)絡(luò)用戶投稿,我們不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果侵犯了您的權(quán)利,請聯(lián)系我站將及時刪除。
內(nèi)容侵權(quán)、違法和不良信息舉報
Copyright @ 2024 培訓(xùn)啦 All Rights Reserved 版權(quán)所有. 湘ICP備2022011548號 美國留學(xué) 留求藝