2010年12月22日下午,由ATA公司主辦的“國際考試與人才測評發展的趨勢與創新—暨第五屆國際考試理論與測評技術研討會”在北京國際飯店會議中心隆重舉行。來自政府主管部門和行業協會的有關領導,以及國內外知名大型企業、金融機構和相關企事業單位的500多名嘉賓出席了本屆研討會。美國教育考試服務中心ETS托業考試全球管理總監余峰博士做主題為如何保證高質量的考試ETS托業考試在全球的發展和運營情況的演講
余峰:考試這是學校的事情,以前確實是,教學和測評這是學校的。現在隨著中國企業的發展,二三十年前企業來料加工,對于人才概念并沒有這么強烈,招工的時候只要是人來了培訓兩天就上崗,現在不一樣了,隨著企業的發展,企業從來料加工產品模仿到自主開發,最重要的一個是人才,對人員員工素質的問題,把合適的人放到合適的位置上,說起來很簡單,在座不少是企業人事部門、政府執業考試部門的人,達到這個目的非常難。任何考試考分有一個含義,小時候老師老罵我,人家都考滿分天才,一百分等于天才,這是一個含義的問題。他錯了嗎?當時大家覺得沒錯。但是對于人才這個概念來講,這個含義不一樣,主要原因是考試分數的含義。你想把合適的人放到合適的地方,首先考評的含義是什么。我想圍繞這個主題跟大家探討一下從ETS的角度來講是怎么來控制質量的。很多人認為考試誰都會出卷子,但是不是這么簡單的事情。就像任何行業都有一個質量控制的手段和方法,在考試這個行業也有這么一個手段和方法,盡管具體的做法不一樣,但實際它的概念是完全一樣的。麥當勞是怎么控制質量的?它有一個流程,它的流程就是說漢堡包多少時間幾分鐘在哪里,不管走到全世界各地,這個流程是完全一樣的,它的質量穩定程度全世界各地都是一樣的,它是這樣來控制它的穩定性的,從考試的角度來講也有類似的概念。
什么是考試質量?任何一個考試有它的局限性,考試不可能把所有人的能力都考出來,一個考試達不到它的要求。你要想做到這個東西,你連續考一輩子,把各種各樣的活動能力、數學能力、語言能力都考出來,可能需要考一輩子。每個考試只能考某些非常局限的就像張教授講的有限度的緯度,數學考試就是考數學,要是語文考試就是考語文,不可能把所有東西加起來再一個考卷里面考,那是不可能的。好質量的考試它不僅僅能夠準確評估它想評估的能力,同時把一些不想評估的能力降到最低點。數學考試加一大堆古文在里面,考察數學能力,結果把一堆古文加進去,古文的能力影響到數學能力的發揮,達不到這個要求。前一段時間當時國內有一位訪問學者到我們這兒來給我看了一個中文考試給外國人的,很多美國人現在學中文,他說你看一下這樣的考試能不能在美國推廣?我看了一道題就說你們必須改,他們當時寫的是秦始皇的出生時間。你考中文,美國人學基本中文,目的是看他能不能說你好,你把歷史文化都加到一個中文考試里面,你不愿意考的變量影響了你想要考的東西,所以一個好的考試不僅能夠準確來評估你想要考的能力,同時把不想考的能力降到最低點。
職業考試的目的通過與不通過,合格了比如醫生醫學院畢業臨床實習完了你要考試,考完以后過了那么就變成可以有執照的醫生。這個考試的目的,你通過不通過有一個最低的標準線。還有一種考試是把所有的考試區分開來,你成績很好、中等、一般,考試的目的是把學生在同一個標尺上區分開來,它的目的不一樣。一個好的考試能夠看你能不能達到你想要達到的目的,除此之外還有一個考試必須公平,考試必須穩定程度要好。1979年的高考(論壇)化學考試,我當時還在高中,我記得那年化學考試考到60分那就是天才了,到那一年考試我們考90分還不是什么人物,現在當然高考已經發展非常好了,但是這么多年以前穩定程度不太好。好的考試有一個公平性、穩定性還有一個準確性,這些因素都是決定考試好與不好的問題。你在評估控制考試質量的時候,這些都是衡量考試好壞的標準。考試質量評估不是說有一個起點有一個終點,它沒有起點沒有終點,是一個循環式的,任何時候你都必須保證每一個步驟保證質量。就像一個流程控制一樣,任何組裝,比如生產一輛汽車,這個組裝線上從零件進來到整車出去都有一個流程,在每一個流程的環節上都包含著質量控制,所以考試的角度來講也是這樣的。大家比較熟悉的效度和信度,各位專家在這兒我也就不多說了。還有一個考試的公正性、公平性,教育測評行業中國最感到自豪,幾千年前中國第一個用了考試作為標準考試來選拔人才,確實是這樣的。為什么要考試,為什么標準化考試?標準化考試是提供公平的平臺,讓所有的人不管他的背景怎么樣,家庭情況怎么樣,教育程度怎么樣,有一個共同的平臺使得他能夠得到往上走的機會。哈佛大學校長覺得學校的學生越來越差,當時學生都是富裕家庭的孩子比較有錢,都是從歐洲移民過來的在新英格蘭地區的白人家庭。孩子的創造力下降,作為學生的創造力下降就不可能長久。孩子的創造力下降,為什么?孩子的生源太窄,要招全球最好的學生,不管窮、富,不管他的文化背景是什么。怎么辦?創立了ETS,目的是為了能夠開發標準的考試,使得所有的人不管你的背景怎么樣,都有一個共同的平臺顯示你的能力。隨著中國企業走向國際化的話,公平性越來越大,不光考慮到文化的公平性,還有對于人才選拔的公平性。企業對社會價值的貢獻是越來越大,在考評上面的公平性是越來越高。還有一個步驟是數據分析,證明你結論的正確性或者改進質量,整個過程是一個循環的過程。有各種不同的方式方法來控制質量,我們當時學的時候覺得有一個很好的數學模型就像數學模型一樣把質量控制,實際這是一個偏見,如果進來的數據進來一大堆是垃圾的話,你出來的結果會好嗎?不會好。任何數學模型只是把潛在的現象顯示出來,但它不可能把你沒有的東西變成有的,數學模型只能做到這個地步。你的質量控制必須從數據的采集開始到成績的匯報這一條線必須從頭在考試設計的時候連在一起考,而不能說我卷子已經出了,考試也考了,拿回來以后就問張教授,你看有沒有什么魔法給我的數據分析一下得到一個結果。這是不可能的。整個過程必須是連在一起的。